Nó có ý nghĩa gì khi so sánh giá trị p với nhau?


20

Tôi có hai quần thể (nam và nữ), mỗi quần thể chứa mẫu. Đối với mỗi mẫu tôi có hai thuộc tính A & B (điểm trung bình năm đầu tiên và điểm SAT). Tôi đã sử dụng thử nghiệm t riêng cho A & B: cả hai đều tìm thấy sự khác biệt đáng kể giữa hai nhóm; A với và B với .1000p= =0,008p= =0,002

Có thể khẳng định rằng tài sản B được phân biệt đối xử tốt hơn (quan trọng hơn) sau đó là tài sản A? Hay là một bài kiểm tra t chỉ là một biện pháp có hoặc không (đáng kể hoặc không đáng kể)?

Cập nhật : theo các bình luận ở đây và những gì tôi đã đọc trên wikipedia , tôi nghĩ rằng câu trả lời nên là: bỏ giá trị p vô nghĩa và báo cáo kích thước hiệu ứng của bạn . Có suy nghĩ gì không?


+ xin vui lòng tha thứ cho tôi rằng tôi không phải là người nói tiếng Anh bản địa :)
Dov

Không có vấn đề gì: nếu bạn cảm thấy rằng các chỉnh sửa (nhỏ) mà tôi đã thực hiện đã thay đổi câu hỏi của bạn theo bất kỳ cách có ý nghĩa nào, xin vui lòng sửa chúng.
whuber

Kết quả bạn đo được là gì? (nghĩa là có gì khác nhau, giữa các nhóm được xác định bởi A / không phải A hoặc B / không phải B?) Nó có được đo trên tất cả 1000 mẫu hay không, một số mẫu bị thiếu?
khách

3
Báo cáo hai kích thước hiệu ứng khác nhau, hoặc khoảng tin cậy cho hai kích thước hiệu ứng khác nhau, sẽ là một ý tưởng tốt. Sẽ dễ dàng hơn để giải thích điều này nếu kết quả trong mỗi hai bộ dữ liệu của bạn là như nhau (phải không?).
Peter Ellis

2
Bạn có thể hiển thị ý nghĩa thống kê kích thước hiệu ứng rất thuận tiện bằng cách sử dụng lô rừng! Trình bày 95% TCTD có nghĩa là bạn đang sử dụng 4 số thay vì 2, nhưng như mọi người đang ám chỉ, nó đủ thể hiện mức độ thông tin cần thiết để so sánh các thử nghiệm.
AdamO

Câu trả lời:


20

Nhiều người sẽ cho rằng giá trị có thể có ý nghĩa ( p < α ) hoặc không, và do đó, không có ý nghĩa gì khi so sánh hai giá trị p với nhau. Cái này sai; trong một số trường hợp nó làm.pp<αp

Trong trường hợp cụ thể của bạn, hoàn toàn không có nghi ngờ rằng bạn có thể so sánh trực tiếp các giá trị . Nếu kích thước mẫu là cố định ( n = 1000 ), thì giá trị p có liên quan đơn điệu đến giá trị t , lần lượt liên quan đơn điệu đến kích thước hiệu ứng được đo bởi Cohen d . Cụ thể, d = 2 t / pn= =1000ptd . Điều này có nghĩa là giá trịpcủa bạntương ứng một-một với kích thước hiệu ứng và vì vậy bạn có thể chắc chắn rằng nếu giátrịpcho thuộc tính A lớn hơn đối với thuộc tính B, thì kích thước hiệu ứng cho A nhỏ hơn hơn đối với tài sản B.d= =2t/npp

Tôi tin rằng điều này trả lời câu hỏi của bạn.

Một số điểm bổ sung:

  1. Điều này chỉ đúng khi kích thước mẫu là cố định. Nếu bạn nhận được p = 0,008 cho thuộc tính A trong một thử nghiệm với một kích thước mẫu và p = 0,002 cho thuộc tính B trong một thử nghiệm khác với kích thước mẫu khác, thì việc so sánh chúng sẽ khó khăn hơn.np= =0,008p= =0,002

    • Nếu câu hỏi cụ thể là liệu A hoặc B có "phân biệt đối xử" tốt hơn trong dân số hay không (nghĩa là: bạn có thể dự đoán giới tính tốt như thế nào bằng cách xem các giá trị A hoặc B?), Thì bạn nên xem xét kích thước hiệu ứng. Trong các trường hợp đơn giản, biết n là đủ để tính kích thước hiệu ứng.pn

    • Nếu câu hỏi mơ hồ hơn: thí nghiệm nào cung cấp nhiều "bằng chứng" hơn chống lại null? (điều này có thể có ý nghĩa nếu ví dụ A = B) - thì vấn đề trở nên phức tạp và gây tranh cãi, nhưng tôi sẽ nói rằng giá trị theo định nghĩa một bản tóm tắt vô hướng của bằng chứng chống lại null, vì vậy giá trị p càng thấp , bằng chứng càng mạnh, ngay cả khi kích thước mẫu là khác nhau.pp

  2. Nói rằng kích thước hiệu ứng cho B lớn hơn A, không có nghĩa là nó lớn hơn đáng kể . Bạn cần một số so sánh trực tiếp giữa A và B để đưa ra yêu cầu như vậy.

  3. Luôn luôn là một ý tưởng tốt để báo cáo (và diễn giải) kích thước hiệu ứng và khoảng tin cậy bên cạnh giá trị .p


3
Điểm tốt về sự đơn điệu và 3 điểm cuối cùng tốt. Bây giờ, re: tuyên bố "bạn có thể chắc chắn": đủ đúng cho mẫu, nhưng "đáng kể như vậy"? (Tức là, với ý nghĩa đáng tin cậy cho dân số?) Bạn đã giải quyết điều này một cách ngắn gọn trong # 2. Một điều trị đầy đủ hơn về điều này sẽ được hoan nghênh. Chúc mừng ~
rolando2

4
Điều này đúng, nhưng tôi cũng đã cố gắng làm rõ rằng nó chỉ nhất thiết đúng trong trường hợp này (bạn cũng lưu ý điều này). Tôi nghĩ Michelle đã đưa ra một điểm đáng giá rằng bạn không nên nói chung sử dụng giá trị p theo cách này.
gung - Phục hồi Monica

1
(-1) Nội dung của bài đăng này là chính xác, nhưng câu mở đầu ("Nhiều người sẽ cho rằng ... không có ý nghĩa gì khi so sánh hai giá trị với nhau. Điều này là quá dễ dàng.") hiểu sai như lời khuyên chung chung, trong khi thực tế nó chỉ giữ trong những trường hợp đặc biệt, chẳng hạn như ở đây. p
Andrew M

1
@AndrewM Có lẽ. Tôi đã chỉnh sửa phần đầu của câu trả lời của tôi. Xem nếu bạn thích nó tốt hơn bây giờ.
amip nói rằng Phục hồi lại

0

Cảm ơn bất cứ ai chỉ đánh giá thấp tôi, vì bây giờ tôi có câu trả lời hoàn toàn khác cho câu hỏi này. Tôi đã xóa câu trả lời ban đầu của mình vì nó không chính xác từ quan điểm này.

Trong bối cảnh của câu hỏi này, chỉ liên quan đến câu hỏi "A hay B là người phân biệt đối xử tốt hơn trong nghiên cứu của tôi", chúng tôi đang xử lý một điều tra dân số chứ không phải mẫu. Do đó, việc sử dụng các số liệu thống kê suy luận như những số liệu được sử dụng để tạo ra giá trị p là không liên quan. Số liệu thống kê suy luận được sử dụng để suy ra ước tính dân số từ những người chúng ta có được từ mẫu của chúng tôi. Nếu chúng ta không muốn khái quát cho dân chúng, thì những phương pháp đó là không cần thiết. (Có một số vấn đề cụ thể xung quanh các giá trị bị thiếu trong một cuộc điều tra dân số, nhưng những vấn đề đó không liên quan trong tình huống này.)

Không có xác suất để có được một kết quả trong một dân số. Chúng tôi thu được kết quả mà chúng tôi nhận được. Do đó, xác suất kết quả của chúng tôi là 100%. Không cần thiết phải xây dựng khoảng tin cậy - ước tính điểm cho mẫu là chính xác. Chúng tôi chỉ đơn giản là không phải ước tính bất cứ điều gì cả.

Trong trường hợp cụ thể "biến nào hoạt động tốt hơn với dữ liệu tôi có", tất cả những gì cần làm là xem kết quả ở dạng tóm tắt đơn giản. Một bảng có thể là đủ, có thể là một biểu đồ như một ô vuông.


-1

Bạn nhận được một sự khác biệt trong p, nhưng không rõ sự khác biệt đó có nghĩa là gì (nó lớn, nhỏ, đáng kể?)

Có thể sử dụng bootstrapping:

chọn (với sự thay thế) từ dữ liệu của bạn, làm lại các bài kiểm tra của bạn, tính toán sự khác biệt của p's (p_a - p_b), lặp lại 100-200 lần

kiểm tra phần nào của p delta của bạn là <0 (có nghĩa là p của A nằm dưới p của B)

Lưu ý: Tôi đã thấy điều này được thực hiện, nhưng không phải là một chuyên gia.


1
Câu trả lời này mô tả một cách để so sánh giá trị p, nhưng câu hỏi ban đầu dường như vẫn chưa được trả lời: quy trình này có ý nghĩa gì không và làm thế nào để diễn giải kết quả?
whuber

-1

Đã thêm một câu trả lời vì nó quá dài cho một bình luận!

Michelle có một phản hồi tốt, nhưng nhiều ý kiến ​​cho thấy một số cuộc thảo luận phổ biến đưa ra về giá trị p. Những ý tưởng cơ bản như sau:

1) Giá trị p nhỏ hơn không có nghĩa là kết quả có ý nghĩa nhiều hay ít. Điều đó chỉ có nghĩa là cơ hội nhận được kết quả ít nhất là cực kỳ ít có khả năng. Ý nghĩa là kết quả nhị phân dựa trên mức ý nghĩa bạn đã chọn (mà bạn chọn trước khi chạy thử nghiệm).

2) Kích thước hiệu ứng (thường được chuẩn hóa thành # độ lệch chuẩn) là một cách tốt để định lượng "hai số khác nhau" như thế nào. Vì vậy, nếu Số lượng A có kích thước hiệu ứng là 0 độ lệch chuẩn và Số lượng B có kích thước hiệu ứng là 0,5 độ lệch chuẩn, bạn sẽ nói rằng có sự khác biệt lớn hơn giữa hai nhóm trong Số lượng A so với Số lượng B. :

.2 độ lệch chuẩn = hiệu ứng "nhỏ"

.5 độ lệch chuẩn = hiệu ứng "trung bình"

.8 độ lệch chuẩn = hiệu ứng "lớn"


1
Nhưng với kích thước mẫu cố định, giá trị p liên quan trực tiếp đến kích thước đơn điệu!
amip nói rằng Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.