Sự phong phú của các giá trị P khi không có giả thuyết


28

Tôi vào ngành dịch tễ học. Tôi không phải là một nhà thống kê nhưng tôi cố gắng tự mình thực hiện các phân tích, mặc dù tôi thường gặp khó khăn. Tôi đã làm phân tích đầu tiên của tôi khoảng 2 năm trước. Giá trị P được bao gồm ở mọi nơi trong các phân tích của tôi (tôi chỉ đơn giản là làm những gì các nhà nghiên cứu khác đang làm) từ các bảng mô tả đến các phân tích hồi quy. Dần dần, các nhà thống kê làm việc trong căn hộ của tôi đã thuyết phục tôi bỏ qua tất cả (!) Các giá trị p, ngoại trừ từ đó tôi thực sự có một giả thuyết.

Vấn đề là giá trị p rất phong phú trong các ấn phẩm nghiên cứu y học. Nó là thông thường để bao gồm các giá trị p trên quá nhiều dòng; dữ liệu mô tả về phương tiện, trung vị hoặc bất cứ thứ gì thường đi cùng với giá trị p (sinh viên kiểm tra, bình phương, v.v.).

Gần đây tôi đã gửi một bài báo cho một tạp chí và tôi đã từ chối (một cách lịch sự) để thêm các giá trị p vào bảng mô tả "đường cơ sở" của tôi. Bài báo cuối cùng đã bị từ chối.

Để làm gương, xem hình bên dưới; đó là bảng mô tả từ bài báo được xuất bản mới nhất trong một tạp chí nội khoa uy tín.: nhập mô tả hình ảnh ở đây

Các nhà thống kê hầu hết (nếu không luôn luôn) tham gia vào việc xem xét các bản thảo này. Vì vậy, một giáo dân như tôi mong đợi sẽ không tìm thấy bất kỳ giá trị p nào khi không có giả thuyết. Nhưng chúng rất phong phú, nhưng lý do cho điều này vẫn khó nắm bắt đối với tôi. Tôi thấy khó tin rằng đó là sự thiếu hiểu biết.

Tôi nhận ra rằng đây là một câu hỏi thống kê biên giới. Nhưng tôi đang tìm kiếm lý do đằng sau hiện tượng này.


12
Giá trị p không có giả thuyết vốn đã bị thiếu sót. Giá trị p thậm chí có nghĩa là gì khi bạn không có giả thuyết?
jameselmore

3
Có lẽ bạn có thể đưa ra một số ví dụ về những người sử dụng giá trị p mà không có bất kỳ giả thuyết nào? Điều này không rõ ràng.
amip nói phục hồi Monica

4
@amoeba "" Vấn đề là giá trị p có ở mọi nơi trong mọi tạp chí y khoa. Thông thường bao gồm các giá trị p trên mỗi dòng có phương tiện, trung bình hoặc tỷ lệ được mô tả. "" Chúng có xu hướng là các thử nghiệm chính xác đơn giản của Fisher hoặc kiểm tra chi bình phương cho sự khác biệt, hỏi xem bất kỳ hàng nào của bảng tóm tắt có sự khác biệt đáng kể . Giả thuyết ngụ ý là mỗi hàng có vấn đề.
Karl

2
Tôi nghi ngờ một lực lượng chính là các giá trị p tạo ấn tượng sai lệch về tính hữu hạn đối với một yêu cầu nhất định. Các nhà xuất bản của các tạp chí này nên yêu thích điều này vì nó có nghĩa là họ sở hữu thông tin sẽ có giá trị trong tương lai gần. Văn hóa đồng thời không tài trợ hoặc đề xuất nghiên cứu nhân rộng cũng giúp giảm thiểu sự hiện diện của các kết quả mâu thuẫn gây tranh cãi. Tôi tự hỏi điều gì sẽ xảy ra nếu cuối cùng mọi người nhận ra thông tin họ sở hữu chủ yếu là "hoạt động vô nghĩa" (thuật ngữ của @ glen_b). Ngay cả khi có những thứ hữu ích trộn lẫn trong ... heuristic bảo bạn tránh.
Sống

1
[at] jameselmore: Tôi đang hỏi cùng một câu hỏi; nó không có ý nghĩa gì nhưng nó được áp dụng mỗi ngày. [at] amoeba: Tôi chọn ngẫu nhiên một trong những tạp chí mà tôi đã đọc, nhấn vào bài báo được xuất bản mới nhất và tìm thấy nó: onlinel Library.wiley.com/doi/10.1111/joim.12230/full [at] Karl: chính xác, cảm ơn bạn. @Momo: Bây giờ tôi đã nỗ lực để cải thiện việc xây dựng câu hỏi. Tôi nghĩ rằng đây là một câu hỏi quan trọng và tôi đánh giá cao đề nghị của bạn. [at] Livid: cảm ơn bạn đã nhận xét này. Thật vậy, nhiều nhà nghiên cứu có thể đã hiểu sai toàn bộ điểm của giá trị p.
Adam Robinsson

Câu trả lời:


29

Rõ ràng tôi không cần cho bạn biết giá trị p là gì, hoặc tại sao sự phụ thuộc quá mức vào chúng là một vấn đề; Bạn rõ ràng hiểu những điều đó khá đủ rồi.

Với xuất bản, bạn có hai áp lực cạnh tranh.

Điều đầu tiên - và một điều bạn nên thúc đẩy ở mọi cơ hội hợp lý - là làm những gì có ý nghĩa.

Thứ hai, cuối cùng, là cần phải thực sự xuất bản. Có rất ít lợi ích nếu không ai thấy những nỗ lực tốt đẹp của bạn trong việc cải cách thực hành khủng khiếp.

Vì vậy, thay vì tránh nó hoàn toàn:

  • thực hiện nó ít như một hoạt động vô nghĩa như bạn có thể thoát khỏi mà vẫn được xuất bản

  • có thể bao gồm một đề cập đến bài viết về phương pháp Tự nhiên gần đây [1] nếu bạn nghĩ rằng nó sẽ giúp ích, hoặc có thể tốt hơn một hoặc nhiều tài liệu tham khảo khác. Ít nhất nó sẽ giúp xác định rằng có một số sự phản đối đối với tính ưu việt của giá trị p.

  • xem xét các tạp chí khác, nếu khác sẽ phù hợp

Đây có phải là giống nhau trong các ngành khác?

Các vấn đề của quá sử dụng p-giá trị xảy ra trong một số lĩnh vực (điều này thậm chí có thể là một vấn đề khi có một số giả thuyết), nhưng ít phổ biến ở một số so với những người khác. Một số môn học có vấn đề với p-value-itis, và những vấn đề gây ra cuối cùng có thể dẫn đến phản ứng hơi quá mức [2] (và ở một mức độ nhỏ hơn, [1], và ít nhất là ở một số nơi, một vài trong số những người khác cũng).

α

Một số người ủng hộ tập trung vào khoảng tin cậy, một số người ủng hộ việc xem xét kích thước hiệu ứng, một số người ủng hộ phương pháp Bayes, một số giá trị p nhỏ hơn, một số chỉ tránh sử dụng giá trị p theo cách cụ thể, v.v. Thay vào đó, có nhiều quan điểm khác nhau về những việc cần làm, nhưng giữa chúng có rất nhiều tài liệu về các vấn đề liên quan đến giá trị p, ít nhất là cách nó được thực hiện khá phổ biến.

Xem các tài liệu tham khảo cho nhiều tài liệu tham khảo lần lượt. Đây chỉ là một mẫu - nhiều hàng chục tài liệu tham khảo có thể được tìm thấy. Một số tác giả đưa ra lý do tại sao họ nghĩ rằng giá trị p là phổ biến.

Một số tài liệu tham khảo này có thể hữu ích nếu bạn muốn tranh luận quan điểm với một biên tập viên.

[1] Halsey LG, Curran-Everett D., Vowler SL & Drumond GB (2015),
"Giá trị P hay thay đổi tạo ra kết quả không thể đạt được,"
Phương pháp tự nhiên 12 , 179 Nott185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / tạp chí / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. và Marks, M. (2015),
Biên tập,
Tâm lý học xã hội cơ bản và ứng dụng , 37 : 1iêu2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Những điều tôi đã học được (cho đến nay),
Nhà tâm lý học Mỹ , 45 (12), 1304 Quay1312.

[4] Cohen, J. (1994),
Trái đất tròn (p <0,05),
Nhà tâm lý học Mỹ , 49 (12), 997 Ném1003.

[5] Valen E. Johnson (2013),
Sửa đổi tiêu chuẩn cho bằng chứng thống kê PNAS , tập. 110, không. 48, 19313 Mạnh19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Điều đáng tin: Phương pháp Bayes để phân tích dữ liệu,
Xu hướng trong khoa học nhận thức 14 (7), 293-300

[7] Ioannidis, J. (2005)
Tại sao hầu hết các kết quả nghiên cứu được công bố là sai,
PLoS Med. Tháng 8; 2 (8): e124.
doi: 10.1371 / tạp chí.pmed.0020124

[8] Gelman, A. (2013), Giá trị P và thực hành thống kê,
Dịch tễ học tập. 24 , số 1, tháng 1, 69-72

[9] Gelman, A. (2013),
"Vấn đề với giá trị p là cách chúng được sử dụng",
(Thảo luận về bảo vệ giá trị P, bởi Paul Murtaugh, về Sinh thái học ) chưa được công bố
http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
Lỗi thống kê: Giá trị P, 'tiêu chuẩn vàng' về giá trị thống kê, không đáng tin cậy như nhiều nhà khoa học giả định,
Tin tức và Nhận xét,
Tự nhiên , Tập. 506 (13), 150-152

[11] Wagenmakers E, (2007)
Một giải pháp thiết thực cho các vấn đề phổ biến của các giá trị p,
Bản tin & Đánh giá tâm lý 14 (5), 779-804


7
+1. Tôi đã đọc bài viết Phương pháp Tự nhiên này [1] một tuần nữa và tôi không chắc là mình rất thích nó. Về cơ bản, họ cho rằng giá trị p có thể rất khác nhau trong các thử nghiệm công suất thấp (xem thêm "điệu nhảy của giá trị p" trên youtube) - một điều tất nhiên là đúng và cần phải nhấn mạnh. Họ kết luận rằng giá trị p là "xấu" (tiêu đề nghe có vẻ khá khắc nghiệt) và mọi người nên sử dụng khoảng tin cậy là "tốt". Nhưng tất nhiên khoảng tin cậy cũng rất khác nhau trong công suất thấp! Tình huống trên Hình 6 (bên trái) của họ trông không tốt hơn nhiều so với Hình 2.
amip nói rằng Rebstate Monica

2
@amoeba Tôi sẽ không nói tôi không đồng ý với bạn - tôi không đồng ý với điều đó; tuy nhiên có một số điểm có thể hữu ích cho OP. Trên thực tế, bạn đã nhắc nhở tôi về một thay đổi tôi dự định thực hiện nhưng quên mất.
Glen_b -Reinstate Monica

3
Vâng, tôi đồng ý với tính hữu dụng tiềm năng - đặc biệt là vì Phương pháp Tự nhiên đủ tôn trọng để mọi người có thể bị thuyết phục bởi "quyền lực" của nó. Tôi chỉ muốn cảnh báo OP đừng coi mọi thứ ở đó là điều hiển nhiên (toán học của họ vẫn ổn, tôi đang nói về kết luận / giải thích ở đây).
amip nói rằng Tái lập lại Monica

1
Cũng thú vị trong bối cảnh này là Wilkinson và Lực lượng đặc nhiệm về suy luận thống kê, phương pháp thống kê trong các tạp chí tâm lý học, nhà tâm lý học người Mỹ , Vol. 54, Số 8, 594-604, 1999.
A. Donda

Glen_b, tôi đã đăng một câu hỏi về một trong những tuyên bố của người lạ trong bài báo "Fickle P": stats.stackexchange.com/questions/250269 - sẽ đánh giá rất cao sự sáng suốt của bạn.
amip nói phục hồi Monica

10

Giá trị p, hay nói chung hơn là kiểm tra ý nghĩa giả thuyết null (NHST), đang dần giữ giá trị ngày càng ít. Vì vậy, nhiều đến nỗi đã bắt đầu bị cấm trong các tạp chí.

Hầu hết mọi người không hiểu những gì giá trị p thực sự cho chúng ta biết và tại sao nó cho chúng ta biết điều này, mặc dù nó được sử dụng ở mọi nơi.

P(Data|H0)P(H0|Data)

H0H0


1
Tôi sẽ thêm rằng P (H0 | dữ liệu) chỉ có ý nghĩa nếu H0 có ý nghĩa. Các nghiên cứu cần được thiết kế và báo cáo theo cách loại trừ những giải thích không thú vị khác cho kết quả (sai lệch, bỏ học, khác biệt cơ bản) vượt quá khả năng. Ngoài ra, ngay cả một RCT mù hoàn hảo với kích thước hiệu ứng đáng kể chỉ cho bạn biết rằng một cái gì đó thú vị đã được đo. Tìm ra nếu bạn đo lường điều bạn thực sự quan tâm là một vấn đề khác được đề cập thường thấy cùng với nỗi ám ảnh giá trị p.
Sống

8

Đây có phải là giống nhau trong các ngành khác? Lý do cho sự ám ảnh với giá trị p là gì?

Greenwald và cộng sự. (1996) cố gắng đối phó với câu hỏi này liên quan đến tâm lý học. Cũng như áp dụng NHST cho các khác biệt cơ bản, có lẽ các biên tập viên sẽ (đúng hoặc sai) quyết định rằng các khác biệt cơ bản "không đáng kể" có thể giải thích kết quả, trong khi những người "đáng kể" có thể giải thích kết quả. Điều này tương tự như "Lý do 1" được cung cấp bởi Greenwald và cộng sự. :

Tại sao NHT vẫn phổ biến?

"Tại sao NHT không chịu khuất phục chỉ trích? Vì không có câu trả lời tốt hơn, nên tin rằng sự kiên trì của NHT đối với sự thiếu tính cách của các nhà khoa học hành vi. Các nhà khoa học hành vi không muốn từ bỏ niềm vui tội lỗi có thể bị từ chối giả thuyết có thể bị từ chối. giống như một người uống rượu không muốn từ bỏ thói quen uống cocktail trước bữa tối ... "

Lý do I: HT cung cấp một kết quả lưỡng phân

"Do việc áp dụng rộng rãi quy ước mà p <0,05 có nghĩa là" có ý nghĩa thống kê ", NHT có thể được sử dụng để đưa ra một câu trả lời phân đôi (từ chối hoặc không từ chối) cho một câu hỏi về giả thuyết khống. như một câu trả lời hữu ích cho các câu hỏi lý thuyết được nêu theo hướng dự đoán hơn là về giá trị dự kiến ​​của một tham số ... "

Lý do 2: p Giá trị như một bản dịch ngôn ngữ thông dụng có ý nghĩa cho thống kê kiểm tra

"Không giống như bất cứ điều gì có thể được cảm nhận trực tiếp từ các giá trị t, F hoặc r (với df liên kết của chúng), thước đo độ ngạc nhiên của giá trị ap chỉ đơn giản được ghi lại bằng số 0 liên tiếp ở bên phải dấu thập phân của nó ..."

Lý do 3: p Giá trị cung cấp thước đo niềm tin "về khả năng nhân rộng của các từ chối giả thuyết Null

"[U] không thích kích thước hiệu ứng (hoặc khoảng tin cậy), giá trị ap do NHT có liên quan đơn điệu đến ước tính khả năng nhân rộng của tìm kiếm không null. Trong tuyên bố này, khả năng sao chép (được định nghĩa chính thức hơn ngay bên dưới) chỉ theo nghĩa NHT của nó là lặp lại kết luận từ chối không phản hồi và không theo nghĩa ước tính của nó về sự gần gũi giữa các ước tính điểm hoặc khoảng. "

Kích thước hiệu ứng và giá trị p: Điều gì cần được báo cáo và điều gì cần được nhân rộng? ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, và DONALD GUTHRIE. Tâm sinh lý học, 33 (1996). 175-183. Nhà xuất bản Đại học Cambridge. In tại Mỹ. Bản quyền O 1996 Hiệp hội nghiên cứu tâm sinh lý


cảm ơn bạn vì những bình luận quan trọng này, mà tôi chắc chắn sẽ sử dụng để tranh luận với những người đánh giá lần sau.
Adam Robinsson

6

Giá trị P cung cấp thông tin về sự khác biệt giữa hai nhóm kết quả ("điều trị" so với "kiểm soát", "A" so với "B", v.v.) mà mẫu từ hai quần thể. Bản chất của sự khác biệt được chính thức hóa trong tuyên bố các giả thuyết - ví dụ: "giá trị trung bình của A lớn hơn giá trị trung bình của B". Giá trị p thấp cho thấy sự khác biệt không phải do biến đổi ngẫu nhiên, trong khi giá trị p cao cho thấy sự khác biệt trong hai mẫu không thể phân biệt với sự khác biệt có thể phát sinh đơn giản với biến đổi ngẫu nhiên. Cái gì là "thấp" hay "cao" đối với giá trị p trong lịch sử là vấn đề quy ước và khẩu vị thay vì được thiết lập bằng logic hoặc phân tích bằng chứng nghiêm ngặt.

Một điều kiện tiên quyết để sử dụng giá trị p là hai nhóm kết quả thực sự có thể so sánh được với nhau, cụ thể là nguồn khác biệt duy nhất giữa chúng có liên quan đến biến bạn đang đánh giá. Như một ví dụ phóng đại, hãy tưởng tượng rằng bạn có số liệu thống kê về hai bệnh trong hai khoảng thời gian - A: tỷ lệ tử vong do bệnh tả ở nam giới trong các nhà tù Anh 1920-1930 và B: nhiễm trùng do sốt rét ở Nigeria 1960-1970. Việc tính toán giá trị p từ hai bộ dữ liệu này sẽ khá vô lý. Bây giờ, nếu A: tỷ lệ tử vong do bệnh tả ở nam giới trong các nhà tù ở Anh không được điều trị so với B: tỷ lệ tử vong do dịch tả ở những người đàn ông trong các nhà tù ở Anh được điều trị bằng hydrat hóa lại, thì bạn có cơ sở cho một giả thuyết thống kê vững chắc.

Thông thường, điều này được thực hiện thông qua thiết kế thử nghiệm cẩn thận, hoặc thiết kế khảo sát cẩn thận hoặc thu thập dữ liệu lịch sử cẩn thận, v.v. Ngoài ra, sự khác biệt giữa hai kết quả phải được chính thức hóa thành các tuyên bố giả thuyết liên quan đến thống kê mẫu - thường là phương tiện mẫu, nhưng cũng có thể là phương sai mẫu, hoặc thống kê mẫu khác. Cũng có thể tạo ra các tuyên bố giả thuyết so sánh hai phân phối mẫu nói chung, sử dụng sự thống trị ngẫu nhiên. Đây là những hiếm.

Cuộc tranh cãi về các giá trị p tập trung vào "điều gì thực sự có ý nghĩa" đối với nghiên cứu? Đây là nơi kích thước hiệu ứng xuất hiện. Về cơ bản, kích thước hiệu ứng là độ lớn của sự khác biệt giữa hai nhóm. Có thể có ý nghĩa thống kê cao (giá trị p thấp -> không phải do biến đổi ngẫu nhiên) mà còn có kích thước hiệu ứng thấp (rất ít khác biệt về cường độ). Khi kích thước hiệu ứng rất lớn, thì việc cho phép giá trị p cao có thể ổn.

Hầu hết các ngành hiện đang chuyển rất mạnh về kích thước hiệu ứng báo cáo và giảm hoặc giảm thiểu vai trò của giá trị p. Họ cũng khuyến khích thống kê mô tả nhiều hơn về các bản phân phối mẫu. Một số cách tiếp cận, bao gồm cả thống kê Bayes, loại bỏ tất cả các giá trị p cùng nhau.


Câu trả lời của tôi là cô đọng và đơn giản hóa. Có nhiều bài viết về chủ đề này, bạn có thể tham khảo để biết thêm chi tiết, biện minh và chi tiết cụ thể, bao gồm:


@MerMeritology cảm ơn bạn đã cung cấp các tài liệu tham khảo quan trọng này. Tôi sẽ đọc chúng càng sớm càng tốt!
Adam Robinsson

6

"Vì vậy, một giáo dân như tôi mong đợi sẽ không tìm thấy bất kỳ giá trị p nào khi không có giả thuyết."

Ngẫu nhiên, OP nói rằng trong Bảng cụ thể mà anh trình bày, không có giả thuyết nào đi kèm với các giá trị p được báo cáo. Chỉ cần xóa đi sự nhầm lẫn nhỏ này, chắc chắn có những giả thuyết không có giá trị, nhưng chúng khá ... được đề cập gián tiếp (đối với nền kinh tế không gian, tôi đoán vậy).

"Giá trị p" là một xác suất có điều kiện, giả sử, đối với thử nghiệm "đuôi phải",

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

TFT|H0(tH0)TH0t(S)TTH0TH0H0

Vì vậy, giá trị p thậm chí không thể được tính nếu không có giả thuyết null và bất cứ khi nào chúng ta thấy giá trị p được báo cáo, ở đâu đó có giả thuyết null ẩn giấu.

Trong Bảng được trình bày trong câu hỏi chúng tôi đọc

"Tất cả các bài kiểm tra về sự khác biệt giữa các tertiles WHR ..."

Giả thuyết null được "ẩn" trong cụm từ này: đó là "Không có sự khác biệt giữa các tertiles WHR", (bất kể "tertile WR" là gì) được biểu thị ở dạng toán học của nó, ở đây dường như là một sự khác biệt của hai cường độ được đặt bằng số không.


Tôi đồng ý có thể có những giả thuyết đằng sau những phân tích này. Tuy nhiên, những người xây dựng hướng dẫn cho các tài liệu nghiên cứu (ví dụ như tuyên bố STROBE) nên nhấn mạnh vào sự phong phú của các giá trị p. Tôi nghĩ giá trị ap nên được dành riêng cho giả thuyết chính của một bài báo (hiếm khi nhiều hơn một). Nhưng tuy nhiên, tôi không thể nói rằng tôi không đồng ý với bạn =)
Adam Robinsson

1
@AdamRobinsson Hmmm ... Tôi không chắc lắm. Cách tiếp cận "dành riêng" như vậy, sẽ làm tăng (thậm chí nhiều hơn) tầm quan trọng mà thử nghiệm giá trị p thực sự có được để đi đến kết luận. Đối với tôi, đó chỉ là một kết quả nữa phải được kết hợp với nhiều khía cạnh khác, kết quả, thông tin ngoài mẫu, logic, v.v. Mặt khác, nếu giá trị p bị phân tán khắp nơi, thì đó là dễ dàng hơn để nhận ra rằng chúng không phải là tiêu chí xác định để đi đến kết luận.
Alecos Papadopoulos

Alecos Tôi đã đọc một cái gì đó khác nhau trong bảng, trong đó đề cập đến các tertiles WHR (tức là tỷ lệ eo-hông) chứ không phải WRT, trong khi tertiles là các giá trị phân chia phân phối thành 3 phần theo cùng một nghĩa là các tứ phân là các giá trị chia thành 4 phần và deciles là mười phần.
Glen_b -Reinstate Monica

@Glen_b Cảm ơn, đó chỉ là một lỗi đánh máy từ phần của tôi. Đã sửa nó.
Alecos Papadopoulos

2
Xem, ví dụ, ở đây . Nhưng có lẽ không phải ở đây .
Glen_b -Reinstate Monica

2

Tôi đã tò mò và đọc bài báo mà OP đưa ra làm ví dụ: Béo phì làm tăng nguy cơ gãy xương hông . Tôi không phải là nhà nghiên cứu y học và thường không đọc các bài báo về thuốc.

p

pp

ppp

p

Nghe có vẻ như câu hỏi được đề cập cụ thể đến các bảng mô tả như vậy. Nếu vậy, đây là một số thực hành kỳ lạ (nhưng chủ yếu là vô hại?) Trong các tạp chí y khoa, tồn tại do truyền thống.


pn=43000


@amoeba Tôi đã chọn một bài viết tại rando; đó là bài báo được xuất bản mới nhất về dịch tễ học trong tạp chí đó. Tôi chắc rằng nếu tôi đã tìm kiếm thêm một số tôi có thể đã cung cấp một bài viết với nhiều giá trị p vô nghĩa hơn. Như bạn đã nhận thấy, có một viêm giá trị p nhưng từ bạn, và các câu trả lời khác ở trên và bên dưới, có vẻ như cộng đồng nghiên cứu đang giải quyết vấn đề này.
Adam Robinsson

@Adam, tôi thích câu hỏi của bạn (+1) và câu trả lời của Glen_b (+1), nhưng nếu bài báo "được chọn ngẫu nhiên" này là đại diện, thì hầu hết các điểm mà Glen_b đã thực hiện và hầu hết các giấy tờ mà anh ấy liên kết đến, không áp dụng hoặc tham khảo tình hình trong nghiên cứu y học mà bạn đã hỏi về. Nếu nó không phải là đại diện, thì tất nhiên tôi không thể phán xét.
amip nói phục hồi Monica

Tôi thực sự đã có sự giúp đỡ to lớn từ câu trả lời của bạn nhiều lần. Tôi đã đánh giá dựa trên sự hiểu biết của tôi về vấn đề này. Tôi tin rằng tất cả các câu trả lời được cung cấp là hữu ích và họ cùng nhau trả lời câu hỏi.
Adam Robinsson

1

Mức độ đánh giá ngang hàng thống kê không cao như người ta nghĩ từ kinh nghiệm của tôi. Đối với tất cả các bài viết được áp dụng mà tôi đã làm việc, tất cả các ý kiến ​​thống kê đều đến từ các chuyên gia trong lĩnh vực ứng dụng chứ không phải từ các nhà thống kê. Đối với các tạp chí "hàng đầu", mặc dù có sự xem xét kỹ lưỡng hơn, không có gì lạ khi thấy kết quả có lỗi nghiêm trọng. Tôi nghĩ rằng điều này một phần là do lĩnh vực thống kê có thể khó khăn (có thể thấy bởi những bất đồng giữa nhiều bộ óc vĩ đại của nó).

Thứ hai, độc giả trong một lĩnh vực mong đợi nhìn thấy mọi thứ theo một cách nhất định. Trong một trải nghiệm gần đây, tôi đã vẽ các xác suất từ ​​một mô hình, nhưng điều này đã bị bắn hạ bởi vì cộng tác viên của tôi đã đoán chính xác điều này, độc giả của anh ta sẽ thoải mái hơn với một kho dữ liệu thô. Tóm lại, nhiều độc giả mong đợi thấy giá trị p cùng với một bảng các đặc điểm cơ bản.

Không liên quan đến câu hỏi trực tiếp của bạn, nhưng có lẽ có liên quan: giá trị p được sử dụng trong hầu hết mọi văn bản bằng các phương pháp thường xuyên hoặc khả năng. Các tác giả thường có những đóng góp to lớn và đã suy nghĩ sâu sắc về thống kê. Mặc dù bị lạm dụng bởi các nhà thực nghiệm, chắc chắn họ có một vị trí trong thống kê.


cảm ơn đã bình luận điều này. Tôi có thể đưa tuyên bố của bạn hơn nữa; Tôi nghĩ rằng một tỷ lệ lớn không thể tin được của những phát hiện được công bố có những sai sót thống kê vì nhiều lý do. Người giám sát của tôi thường nói "quá trình xem xét dựa trên từ của một quý ông" Tôi nghĩ khá buồn cười.
Adam Robinsson

1

Tôi phải đọc các bài báo y tế thường xuyên và tôi cảm thấy rằng con lắc dường như đang chuyển từ cực đoan này sang cực đoan khác, thay vì ở trong vùng cân bằng trung tâm.

Theo cách tiếp cận dường như làm việc tốt. Nếu giá trị P nhỏ, sự khác biệt quan sát được có thể chỉ là do cơ hội. Do đó, chúng ta nên nhìn vào mức độ khác biệt và quyết định xem nó có ý nghĩa thực tế nào không. Giá trị P rất nhỏ xảy ra với kích thước mẫu lớn ngay cả với sự khác biệt rất nhỏ có thể không liên quan thực tế.

Không bao gồm các giá trị P trong bảng dữ liệu cơ sở có thể bất lợi. Vì vậy, nếu trong một nghiên cứu có hai nhóm với độ tuổi trung bình là 54 và 59 tuổi, tôi muốn biết liệu sự khác biệt này có thể chỉ là tình cờ không. Nếu P nhỏ thì tôi nghĩ liệu sự chênh lệch 5 năm này ở 2 nhóm có thể ảnh hưởng đến kết quả nghiên cứu hay không. Nếu P không nhỏ, tôi không phải trả lời câu hỏi này.

Vấn đề xảy ra nếu một người chỉ dựa vào giá trị P và không kiểm tra mức độ khác biệt (ví dụ: thay đổi phần trăm đơn giản). Một số cảm thấy rằng các giá trị P nên được bỏ qua hoàn toàn để chỉ nhìn thấy sự khác biệt. Một giải pháp cân bằng sẽ là nhấn mạnh vào việc đánh giá cả hai điều này và không chỉ vứt bỏ giá trị P, có ý nghĩa hạn chế nhưng 'đáng kể'. Kích thước hiệu ứng cũng có khả năng tương quan chặt chẽ với giá trị P (giống như khoảng tin cậy) và cũng không có khả năng thay thế hoàn toàn các giá trị P khỏi bối cảnh thống kê. Như đã đề cập trong bài viết sau, có nhiều ưu điểm của kiểm tra giả thuyết null vì nó vẫn còn phổ biến:

ANTHONY G. GREENWALD, RICHARD GONZALEZ, RICHARD J. HARRIS, và DONALD GUTHRIE Hiệu ứng kích thước và giá trị p: Những gì cần được báo cáo và những gì cần được nhân rộng? Tâm sinh lý học, 33 (1996). 175-183.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.