Có sai không khi đề cập đến các kết quả là có ý nghĩa như là gần như là gần đây


13

Sự đồng thuận chung về một câu hỏi tương tự, Có sai không khi coi kết quả là "rất có ý nghĩa"? là "rất có ý nghĩa" là một cách hợp lệ, mặc dù không cụ thể, để mô tả sức mạnh của một hiệp hội có giá trị p thấp hơn nhiều so với ngưỡng ý nghĩa được đặt trước của bạn. Tuy nhiên, những gì về việc mô tả giá trị p hơi vượt quá ngưỡng của bạn? Tôi đã thấy một số bài viết sử dụng các thuật ngữ như "hơi quan trọng", "gần như đáng kể", "ý nghĩa tiếp cận", v.v. Tôi thấy những điều khoản này hơi mơ hồ, trong một số trường hợp, một cách không rõ ràng về đường biên giới để kéo một kết quả có ý nghĩa ra khỏi một nghiên cứu có kết quả tiêu cực. Các thuật ngữ này có được chấp nhận để mô tả kết quả "chỉ bỏ lỡ" giá trị p của bạn không?


3
Tôi không tin bất cứ ai đề xuất "ý nghĩa" đủ điều kiện để mô tả "sức mạnh của một hiệp hội"; cái sau nghe giống như một thước đo kích thước hiệu ứng. Dù sao, xem ở đây cho một danh sách đầy đủ hơn.
Scortchi - Tái lập Monica

1
@Scortchi - Theo hiểu biết của tôi, một giá trị p rất nhỏ có ý nghĩa rất lớn, có nghĩa là một mối liên hệ chặt chẽ giữa biến trong câu hỏi và mục tiêu. Đây là kết quả của kích thước hiệu ứng lớn, nhiều dữ liệu hoặc cả hai. Đối với các giá trị p lớn, bằng chứng hỗ trợ mối liên hệ giữa biến và mục tiêu là yếu. Ngoài ra, yêu danh sách đó trong liên kết của bạn.
Hạt nhân Wang

9
Có được giá trị p rất nhỏ cho kích thước hiệu ứng nhỏ hiếm khi được gọi là "liên kết mạnh". Nó sẽ chỉ là một hiệp hội có thể phát hiện .
whuber

2
Tôi đã thấy những người sử dụng các cụm từ này rất nhiều trong ngành công nghiệp, không phải trong các bài báo học thuật.
Aksakal

1
Có lẽ sự khó chịu của bạn đến từ việc tin rằng giá trị p (hoặc bất kỳ số nào khác có nguồn gốc từ một mẫu) là thước đo sắc nét của một cái gì đó.
Tháp Eric

Câu trả lời:


14

Nếu bạn muốn cho phép "mức độ quan trọng" thừa nhận bằng cấp thì đủ công bằng ("hơi đáng kể", "khá đáng kể"), nhưng tránh các cụm từ gợi ý rằng bạn vẫn thích thú với ý tưởng về ngưỡng, chẳng hạn như "gần như đáng kể" , "Tiếp cận ý nghĩa" hoặc "ở đỉnh điểm quan trọng" (yêu thích của tôi từ "Vẫn không đáng kể" trên blog Lỗi có thể xảy ra ), nếu bạn không muốn tỏ ra tuyệt vọng.


9
(+1) cho liên kết. Nhưng tôi nghĩ rằng điểm nổi bật của sự sáng tạo đầy chất thơ là "mọc răng trên bờ vực của ý nghĩa (p = 0,06)" .
Alecos Papadopoulos

1
@AlecosPapadopoulos: Bạn nói đúng, mặc dù "tán tỉnh với mức ý nghĩa thông thường" & "lơ lửng gần hơn với ý nghĩa thống kê" xứng đáng được đề cập đến. "Đáng kể" có lẽ là một người chiến thắng trong một thể loại khác.
Scortchi - Phục hồi Monica

4
Thật vậy, hai phần đầu có tinh thần điện ảnh thực sự, phần đầu tiên từ bộ phim "Statistics Gigolo" (ai khác sẽ tán tỉnhmức độ thông thường ?), Trong khi phần thứ hai từ bộ phim "Dying on the Tail", nơi chúng ta thấy kền kền đe dọa (giá trị p) lơ lửng trên người anh hùng đang hấp hối (ý nghĩa thống kê).
Alecos Papadopoulos

1
Cá nhân, tôi đã từ bỏ từ 'đáng kể' trong cụm từ của mình và gọi p = 0,06 'khá thú vị'. Đúng, hoặc sai, khi lần đầu tiên tôi gặp giá trị p trong khóa học Six Sigma, người hướng dẫn đã gợi ý rằng với 0,05 <= 0,1 nhãn đúng là 'cần thêm dữ liệu' (dựa trên cài đặt công nghiệp nơi khó có được điểm dữ liệu bổ sung , hoàn toàn khác với bất kỳ kịch bản 'Dữ liệu lớn' nào
Robert de Graaf

6

Từ quan điểm của tôi, vấn đề tập trung vào ý nghĩa thực sự của nó để thực hiện một bài kiểm tra quan trọng. Thử nghiệm quan trọng đã được nghĩ ra như một phương tiện để đưa ra quyết định từ chối giả thuyết khống hoặc không từ chối nó. Chính ông Fisher đã đưa ra quy tắc 0,05 khét tiếng để đưa ra quyết định (tùy tiện) đó.

Về cơ bản, logic của kiểm tra ý nghĩa là người dùng phải chỉ định cấp độ alpha để từ chối giả thuyết null (theo quy ước 0,05) trước khi thu thập dữ liệu . Sau khi hoàn thành bài kiểm tra quan trọng, người dùng từ chối null nếu giá trị p nhỏ hơn mức alpha (hoặc không từ chối nếu không).

Lý do tại sao bạn không thể tuyên bố một hiệu ứng có ý nghĩa cao (giả sử, ở mức 0,001) là vì bạn không thể tìm thấy bằng chứng mạnh mẽ hơn bạn đặt ra để tìm. Vì vậy, nếu bạn đặt mức alpha ở mức 0,05 trước khi kiểm tra, bạn chỉ có thể tìm thấy bằng chứng ở mức 0,05, bất kể giá trị p của bạn nhỏ đến mức nào. Theo cách tương tự, việc nói về các hiệu ứng "có ý nghĩa" hoặc "ý nghĩa tiếp cận" cũng không có ý nghĩa gì vì bạn đã chọn tiêu chí tùy ý này là 0,05. Nếu bạn diễn giải logic của kiểm tra ý nghĩa theo nghĩa đen, bất cứ điều gì lớn hơn 0,05 đều không đáng kể.

Tôi đồng ý rằng các thuật ngữ như "ý nghĩa tiếp cận" thường được sử dụng để tăng cường triển vọng xuất bản. Tuy nhiên, tôi không nghĩ rằng các tác giả có thể bị đổ lỗi vì điều đó bởi vì văn hóa xuất bản hiện tại trong một số ngành khoa học vẫn phụ thuộc rất nhiều vào "chén thánh" 0,05.

Một số vấn đề được thảo luận trong:

Gigerenzer, G. (2004). Thống kê vô tâm. Tạp chí kinh tế xã hội, 33 (5), 587-606.

Royall, R. (1997). Bằng chứng thống kê: một mô hình khả năng (Tập 71). Báo chí CRC.


1
Bạn đang pha trộn triết lý khoa học của ngư dân với cách tiếp cận của Neyman / Pearson nếu bạn thêm cấp độ alpha vào thử nghiệm ý nghĩa của Fisher.
RBirkelbach

5

Độ dốc trơn trượt này gọi lại khung công tác Fisher vs Neyman / Pearson để kiểm tra ý nghĩa giả thuyết null (NHST). Một mặt, người ta muốn đánh giá định lượng về mức độ khó có thể xảy ra theo giả thuyết null (ví dụ: kích thước hiệu ứng). Mặt khác, vào cuối ngày, bạn muốn có một quyết định riêng biệt về việc liệu kết quả của bạn có, hoặc không, có khả năng là do cơ hội một mình. Những gì chúng tôi đã kết thúc là một cách tiếp cận lai không thỏa mãn lắm.

Trong hầu hết các ngành, p thông thường cho tầm quan trọng được đặt ở mức 0,05, nhưng thực sự không có căn cứ nào cho lý do tại sao điều này phải như vậy. Khi tôi xem lại một bài báo, tôi hoàn toàn không có vấn đề gì với một tác giả gọi 0,06 đáng kể, hoặc thậm chí 0,07, với điều kiện là phương pháp này là âm thanh, và toàn bộ bức tranh, bao gồm tất cả các phân tích, số liệu, v.v. kể một câu chuyện nhất quán và đáng tin. Nơi bạn gặp vấn đề là khi các tác giả cố gắng tạo ra một câu chuyện từ dữ liệu tầm thường với kích thước hiệu ứng nhỏ. Ngược lại, tôi có thể không hoàn toàn 'tin tưởng' một thử nghiệm thực sự có ý nghĩa ngay cả khi nó đạt mức ý nghĩa p <0,05 thông thường. Một đồng nghiệp của tôi đã từng nói: "Số liệu thống kê của bạn chỉ cần sao lưu những gì đã rõ ràng trong số liệu của bạn."

Tất cả đã nói, tôi nghĩ Vasilev là chính xác. Do hệ thống xuất bản bị hỏng, bạn phải đưa vào các giá trị p khá nhiều và do đó, bạn phải sử dụng từ 'đáng kể' một cách nghiêm túc, ngay cả khi nó yêu cầu các tính từ như "ngoài lề" (mà tôi thích). Bạn luôn có thể chiến đấu với nó trong đánh giá ngang hàng, nhưng bạn phải đến đó trước.


5

Sự khác biệt giữa hai giá trị p thường không đáng kể. Vì vậy, việc giá trị p của bạn là 0,05, 0,049, 0,051 ... không quan trọng

Liên quan đến giá trị p là thước đo sức mạnh của sự liên kết: Giá trị p không trực tiếp là thước đo sức mạnh của sự liên kết. Giá trị p là xác suất tìm thấy dữ liệu cực đoan hoặc cực đoan hơn dữ liệu bạn đã quan sát, với tham số được giả thuyết là 0 (nếu ai đó quan tâm đến giả thuyết null - xem nhận xét của Nick Cox). Tuy nhiên, đây thường không phải là số lượng mà nhà nghiên cứu quan tâm. Nhiều nhà nghiên cứu khá quan tâm đến việc trả lời các câu hỏi như "xác suất của tham số sẽ lớn hơn giá trị cắt nào đã chọn?" Nếu đây là những gì bạn quan tâm, bạn cần kết hợp thêm thông tin trước trong mô hình của mình.


6
Tôi đồng ý với tinh thần của việc này, nhưng bản in nhỏ như luôn cần sự cảnh giác cao độ. "đưa ra tham số được giả sử là 0": thường xuyên, nhưng không phải luôn luôn. Giá trị P cũng có thể được tính cho các giả thuyết khác. Ngoài ra, đối với "giả định" đọc "giả thuyết".
Nick Cox

Bạn hoàn toàn đúng - Tôi sẽ chỉnh sửa câu trả lời của tôi!
RBirkelbach

3

p<αp>α(tất nhiên không phải là sức mạnh của hiệu ứng). Đối với một "người liên tục" như vậy, "gần như đáng kể" là một cách hợp lý để mô tả một kết quả với giá trị p vừa phải. Vấn đề phát sinh khi mọi người trộn lẫn hai triết lý này - hoặc tệ hơn, không nhận thức được rằng cả hai tồn tại. (Nhân tiện - mọi người thường cho rằng những bản đồ này rõ ràng trên Neyman / Pearson và Fisher, nhưng họ thì không; do đó, những điều khoản vụng về được thừa nhận của tôi dành cho họ). Chi tiết hơn về điều này trong một bài đăng trên blog về chủ đề này tại đây: https://scientistseessquirrel.wordpress.com/2015/11/16/is-gầnly-significant-ridicificent/


1

Tôi có xu hướng nghĩ rằng việc nói điều gì đó gần như có ý nghĩa thống kê là không đúng theo quan điểm kỹ thuật. Khi bạn đặt mức dung sai, kiểm tra thống kê có ý nghĩa được đặt. Bạn phải quay trở lại ý tưởng phân phối mẫu. Nếu mức dung sai của bạn là 0,05 và bạn tình cờ nhận được giá trị p là 0,053 thì đó chỉ là tình cờ mẫu được sử dụng mang lại thống kê đó. Bạn rất có thể có được một mẫu khác có thể không mang lại kết quả tương tự - Tôi tin rằng xác suất xảy ra là dựa trên mức dung sai được đặt chứ không dựa trên thống kê mẫu. Hãy nhớ rằng bạn đang kiểm tra các mẫu theo thông số dân số và các mẫu có phân phối mẫu riêng. Vì vậy, theo tôi, một cái gì đó có ý nghĩa thống kê hoặc nó không có ý nghĩa.


0

[0,1] Dưới H0 do đó, nhận được kết quả có giá trị p là 0,051 cũng giống như nhận kết quả có giá trị p là 1. Vì bạn phải đặt mức ý nghĩa trước khi nhận dữ liệu, bạn từ chối null cho mọi giá trị p p>α. Vì bạn không từ chối null của mình, bạn phải giả sử giá trị p được phân phối đồng đều, giá trị cao hơn hoặc thấp hơn về cơ bản là vô nghĩa.

Đây là một câu chuyện hoàn toàn khác khi bạn từ chối null, vì giá trị p không được phân phối đồng đều theo H1 nhưng phân phối phụ thuộc vào tham số.

Xem ví dụ Wikipedia .


Tôi không hoàn toàn theo bạn. Có, trong bất kỳ phân phối liên tục nào, khả năng nhận được kết quả chính xác là 0,051 bằng với khả năng nhận được kết quả chính xác là 1 - không. Nhưng kiểm tra giả thuyết kiểm tra khả năng nhìn thấy một giá trị ít nhất là cực đoan như quan sát. Bạn sẽ luôn tìm thấy giá trị p ít nhất là 1, nhưng ít có khả năng thấy giá trị p cực kỳ bằng 0,051. Điều gì làm cho sự khác biệt đó "vô nghĩa"?
Hạt nhân Wang

Trong null, nó có khả năng quan sát giá trị p trong khoảng [0,05,0.051] vì nó quan sát giá trị p trong khoảng [0,999,1]. Quan sát giá trị p gần với ngưỡng hơn không phải là bằng chứng chống lại 0 như quan sát bất kỳ giá trị p nào khác bên ngoài khu vực loại bỏ.
snaut

Một số gọi giá trị ap là 0,05 đáng kể, số khác sử dụng 0,01 hoặc 0,1 làm ngưỡng. Vì vậy, trong số 3 nhà nghiên cứu thực hiện phân tích tương tự và tìm thấy giá trị p là 0,03, hai người có thể gọi nó là đáng kể và một người có thể không. Nếu tất cả họ đều tìm thấy giá trị p là 0,91, không ai sẽ gọi nó là đáng kể. Giá trị p gần với ngưỡng hơn có nghĩa là nhiều cá nhân sẽ cho rằng có đủ bằng chứng để từ chối null. Tôi không thấy lý do tại sao p = 0,051 và p = 1 không thể phân biệt được về mặt hỗ trợ cho H1 - một số người sẽ hỗ trợ chính xác cho H1 với p = 0,051; không ai sẽ làm như vậy với p = 1.
Hạt nhân Wang
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.