Có sai không khi đề cập đến kết quả là một người có ý nghĩa rất cao?


18

Tại sao nhà thống kê làm nản lòng chúng ta ra khỏi đề cập đến kết quả là " cao đáng kể" khi -giá trị là thấp hơn nhiều so thông thường α -level của 0,05 ?pα0.05

Có thực sự sai khi tin tưởng vào một kết quả có 99,9% cơ hội không phải là lỗi Loại I ( ) so với kết quả chỉ mang lại cho bạn cơ hội đó ở mức 99% ( p = 0,01 )?p=0.001p=0.01


16
Có thể đáng để đọc câu trả lời của @ gung ở đây . Tóm lại: Đối với quyết định "có ý nghĩa so với không đáng kể" hoặc "từ chối giả thuyết null so với không từ chối giả thuyết null", điều đó chỉ quan trọng cho dù giá trị nằm dưới giá trị α mà bạn đặt ra trước nghiên cứu (Neyman & Pearson) . Mặt khác, bạn có thể coi giá trị p là thước đo bằng chứng liên tục chống lại giả thuyết khống không có "điểm cắt" (Fisher). pαp
COOLSerdash

10
Bạn dường như có một quan niệm sai lầm nghiêm trọng về giá trị p (giá trị p không phải là xác suất lỗi), nếu được sửa chữa, có thể giúp bạn hiểu lý do tại sao bạn có thể nghe thấy một số điều từ các nhà thống kê.
anh chàng

10
Tôi thú nhận rằng đôi khi tôi sử dụng các cụm từ như "rất có ý nghĩa." Ở những nơi khác trong các báo cáo, nhiều kết quả ban đầu có thể phải được điều chỉnh cho nhiều thử nghiệm, trong đó "rất có ý nghĩa" có được ý nghĩa kỹ thuật hơn của "vẫn có ý nghĩa ngay cả sau khi điều chỉnh phù hợp cho nhiều so sánh." Ngay cả khi tất cả các độc giả đồng ý về việc sử dụng thích hợp (rất hiếm khi phân tích được sử dụng bởi nhiều bên liên quan), điều gì là "đáng kể" hay không phụ thuộc vào tập hợp các giả thuyết mà mỗi người đọc có trong đầu trước khi xem báo cáo. α
whuber

7
Không phải tất cả các nhà thống kê đều nói sai. Bản thân tôi sử dụng thuật ngữ này (hiếm khi được thừa nhận) - ví dụ để biểu thị rằng trên dữ liệu này, null sẽ bị từ chối bởi những người hoạt động ở mức độ quan trọng thấp hơn so với cái tôi đang sử dụng, nhưng điều quan trọng là không gắn nhiều ý nghĩa với nó hơn nó có Tôi chỉ đơn giản nói rằng người ta phải thận trọng - đôi khi khá nhiều trong số đó - khi diễn giải ý nghĩa của cụm từ đó, thay vì nó đặc biệt sai . Một số điểm ở đây sẽ có liên quan.
Glen_b -Reinstate Monica

7
(ctd) ... bằng cách so sánh, tôi nghĩ rằng một mối quan tâm lớn hơn là mọi người sử dụng các bài kiểm tra giả thuyết đơn giản là không trả lời câu hỏi quan tâm của họ (mà tôi nghĩ là trường hợp rất thường xuyên). Tốt hơn là tập trung vào vấn đề rõ ràng và quan trọng đó, thay vì quá giáo điều về một sự không thông minh nhỏ trong cách họ thể hiện một giá trị p rất nhỏ.
Glen_b -Reinstate Monica

Câu trả lời:


17

Tôi nghĩ rằng không có nhiều sai lầm khi nói rằng kết quả là "rất có ý nghĩa" (mặc dù có, nó hơi cẩu thả).

Điều đó có nghĩa rằng nếu bạn đã thiết lập một mức ý nghĩa nhỏ hơn nhiều , bạn vẫn sẽ có đánh giá kết quả như ý nghĩa. Hay tương đương, nếu một số độc giả của bạn có một nhỏ hơn nhiều α trong tâm trí, sau đó họ vẫn có thể đánh giá kết quả của bạn như đáng kể.αα

Lưu ý rằng mức ý nghĩa nằm trong mắt của kẻ si tình, trong khi giá trị p là (với một số cảnh báo) là một thuộc tính của dữ liệu.αp

Quan sát không giống như quan sát p = 0,04 , mặc dù cả hai có thể được gọi là "đáng kể" theo các quy ước tiêu chuẩn của lĩnh vực của bạn ( α = 0,05 ). Giá trị p nhỏ có nghĩa là bằng chứng mạnh mẽ hơn chống lại null (đối với những người thích thử nghiệm giả thuyết của Fisher); điều đó có nghĩa là khoảng tin cậy xung quanh kích thước hiệu ứng sẽ loại trừ giá trị null với biên độ lớn hơn (đối với những người thích TCTD hơn giá trị p ); nó có nghĩa là xác suất sau của null sẽ nhỏ hơn (đối với Bayes với một số trước); tất cả đều tương đương và đơn giản có nghĩa là những phát hiện này có sức thuyết phục hơnp=1010p=0.04α=0.05pp. Xem giá trị p nhỏ hơn có thuyết phục hơn không? để thảo luận thêm.

Thuật ngữ "rất có ý nghĩa" là không chính xác và không cần phải có. Đó là một đánh giá chuyên môn chủ quan, tương tự như việc quan sát kích thước hiệu ứng lớn đáng ngạc nhiên và gọi nó là "rất lớn" (hoặc có lẽ đơn giản là "rất lớn"). Không có gì sai khi sử dụng các mô tả định tính, chủ quan về dữ liệu của bạn, ngay cả trong các bài viết khoa học; tất nhiên, với điều kiện là phân tích định lượng khách quan cũng được trình bày.


Xem thêm một số nhận xét xuất sắc ở trên, +1 cho @whuber, @Glen_b và @COOLSerdash.


2
Đã đồng ý. Giá trị là một chỉ số định lượng; do đó, nói như thế này, mặc dù không chính xác bên ngoài một số bối cảnh, nhưng thực tế không phải là không hợp lệ, bất kể việc nói "Bill cao" và "Fred thực sự cao" là sử dụng tiếng Anh không hợp lệ. Chúng ta cũng muốn xem các con số và bối cảnh của chúng, v.v., v.v. Không ai trong số này ngăn những người muốn hoặc cần đưa ra quyết định sắc bén ở P < 0,05 hoặc bất cứ điều gì làm chính xác như họ muốn, nhưng sở thích của họ không áp dụng điều này. PP<0.05
Nick Cox

Nó không cẩu thả chút nào. Nó cũng được ghi nhận là có một định nghĩa chính thức.

3

Đây là một câu hỏi phổ biến.

Một câu hỏi tương tự có thể là "Tại sao p <= 0,05 được coi là đáng kể?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer đã đưa ra một phần của câu trả lời: ý nghĩa chỉ là một phần của câu trả lời. Với đủ dữ liệu, thông thường một số thông số sẽ hiển thị là "đáng kể" (tra cứu hiệu chỉnh Bonferroni). Nhiều thử nghiệm là một vấn đề cụ thể trong di truyền học, trong đó các nghiên cứu lớn tìm kiếm ý nghĩa là phổ biến và giá trị p <10 -8 thường được yêu cầu ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Ngoài ra, một vấn đề với nhiều phân tích là chúng có cơ hội và không được lên kế hoạch trước (tức là "Nếu bạn tra tấn dữ liệu đủ, tự nhiên sẽ luôn thú nhận." - Ronald Coase).

Nói chung, nếu một phân tích được lên kế hoạch trước (với sự điều chỉnh phân tích lặp đi lặp lại cho sức mạnh thống kê), nó có thể được coi là đáng kể. Thông thường, kiểm tra lặp đi lặp lại bởi nhiều cá nhân hoặc nhóm là cách tốt nhất để xác nhận rằng một cái gì đó hoạt động (hoặc không). Và sự lặp lại của kết quả thường là thử nghiệm đúng cho tầm quan trọng.


2

Một bài kiểm tra là một công cụ cho một quyết định trắng đen, tức là nó cố gắng trả lời một câu hỏi có / không như 'có hiệu quả điều trị thực sự không?'. Thông thường, đặc biệt là nếu tập dữ liệu lớn, câu hỏi như vậy khá lãng phí tài nguyên. Tại sao hỏi một câu hỏi nhị phân nếu có thể nhận được câu trả lời cho một câu hỏi định lượng như 'hiệu quả điều trị thực sự lớn đến mức nào?' mà ngầm trả lời câu hỏi có / không? Vì vậy, thay vì trả lời một câu hỏi có / không có thông tin chính xác với độ chắc chắn cao, chúng tôi thường khuyên bạn nên sử dụng khoảng tin cậy có chứa nhiều thông tin hơn.


2
+1 Mặc dù bạn có thể rõ ràng hơn về cách trả lời câu hỏi của OP (nó không quá rõ ràng).

@Matthew: Tôi hoàn toàn đồng ý.
Michael M

Cảm ơn Michael. Nhưng tôi đoán khoảng tin cậy (đưa ra câu trả lời "thang đo liên tục") sẽ đề cập đến kích thước hiệu ứng, phải không? Mặc dù vậy, không cần phải có câu trả lời nhị phân để bổ sung cho câu trả lời liên tục, tức là liệu hiệu ứng này (có kích thước được mô tả bởi các TCTD) có đáp ứng mức độ α đã thỏa thuận không? Hoặc có thể bạn thậm chí có thể cung cấp các TCTD cho chính giá trị p?
z8080

(A) "Kích thước hiệu ứng" thường đề cập đến một phiên bản tiêu chuẩn của hiệu ứng điều trị và do đó ít dễ hiểu hơn so với chính hiệu ứng. (B) CI cho giá trị p đôi khi được thêm vào cho giá trị p mô phỏng để thể hiện độ không đảm bảo mô phỏng. (C) Nếu mức của bạn là 0,05, thì trong hầu hết mọi tình huống thử nghiệm, quyết định đen / trắng từ thử nghiệm có thể được rút ra bằng cách xem xét 95% ci tương ứng.
Michael M

(tt) Câu hỏi của bạn bằng cách nào đó có liên quan đến câu hỏi sau: Có hữu ích hơn không khi nói rằng ngay cả 99.9999% ci không tương thích với null hoặc thậm chí giới hạn dưới của 95% ci cho hiệu quả thực sự rất hứa hẹn?
Michael M
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.