Tiện ích của kích thước hiệu ứng liên quan đến giá trị p (cũng như các số liệu suy luận thống kê khác) thường xuyên được tranh luận trong lĩnh vực tâm lý học của tôi và cuộc tranh luận hiện tại là Hot hotter, hơn bình thường vì những lý do liên quan đến câu hỏi của bạn. Và mặc dù tôi chắc chắn rằng tâm lý học không nhất thiết là lĩnh vực khoa học phức tạp nhất về mặt thống kê, nó đã dễ dàng thảo luận, nghiên cứu về thời gian và đã chứng minh những hạn chế của các phương pháp khác nhau đối với suy luận thống kê, hoặc ít nhất là chúng bị hạn chế bởi việc sử dụng của con người. Các câu trả lời đã được đăng bao gồm những hiểu biết tốt, nhưng trong trường hợp bạn quan tâm đến một danh sách rộng hơn (và tài liệu tham khảo) về lý do và chống lại từng lý do, hãy xem bên dưới.
Tại sao giá trị p không mong muốn?
- Như Darren James lưu ý (và các chương trình mô phỏng của ông), giá trị p phần lớn phụ thuộc vào số lượng quan sát mà bạn có (xem Kirk, 2003)
- Như Jon lưu ý, giá trị p đại diện cho xác suất có điều kiện quan sát dữ liệu là cực trị hoặc cực đoan hơn cho rằng giả thuyết null là đúng. Vì hầu hết các nhà nghiên cứu muốn có xác suất của giả thuyết nghiên cứu và / hoặc giả thuyết null, giá trị p không nói lên xác suất mà các nhà nghiên cứu quan tâm nhất (ví dụ, giả thuyết null hoặc giả thuyết nghiên cứu, xem Điềnes, 2008)
- Nhiều người sử dụng giá trị p không hiểu ý nghĩa của chúng / không có nghĩa là gì (Schmidt & Hunter, 1997). Tài liệu tham khảo của Michael Lew về bài viết của Gelman và Stern (2006) nhấn mạnh thêm những hiểu lầm của nhà nghiên cứu về những gì người ta có thể (hoặc không thể) giải thích từ giá trị p. Và như một câu chuyện tương đối gần đây trên FiveThentyEight chứng minh, điều này tiếp tục là trường hợp.
- giá trị p không tốt trong việc dự đoán giá trị p tiếp theo (Cumming, 2008)
- giá trị p thường bị báo cáo sai (thường có ý nghĩa tăng cao) và việc nhập sai có liên quan đến việc không muốn chia sẻ dữ liệu (Bakker & W Richts, 2011; Nuijten et al., 2016; W Richts et al., 2011)
- giá trị p có thể (và trong lịch sử, đã bị) chủ động biến dạng thông qua tính linh hoạt phân tích và do đó không đáng tin cậy (John et al., 2012; Simmons et al., 2011)
- giá trị p có ý nghĩa không tương xứng, vì các hệ thống học thuật dường như thưởng cho các nhà khoa học về ý nghĩa thống kê so với độ chính xác khoa học (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Tại sao kích thước hiệu ứng mong muốn?
Lưu ý rằng tôi đang diễn giải câu hỏi của bạn như đề cập cụ thể đến kích thước hiệu ứng được tiêu chuẩn hóa, như bạn nói họ cho phép các nhà nghiên cứu chuyển đổi kết quả của họ.
- Như Jon và Darren James chỉ ra, kích thước hiệu ứng cho thấy mức độ ảnh hưởng, không phụ thuộc vào số lượng quan sát (Hiệp hội Tâm lý học Hoa Kỳ 2010; Cumming, 2014) trái ngược với việc đưa ra quyết định phân biệt về việc liệu có hiệu ứng ở đó hay không.
- Kích thước hiệu ứng rất có giá trị vì chúng có thể phân tích meta và phân tích tổng hợp kiến thức tích lũy (Borenstein và cộng sự, 2009; Chan & Arvey, 2012)
- Kích thước hiệu ứng giúp tạo thuận lợi cho việc lập kế hoạch kích thước mẫu thông qua phân tích sức mạnh tiên nghiệm và do đó phân bổ nguồn lực hiệu quả trong nghiên cứu (Cohen, 1992)
Tại sao giá trị p mong muốn?
Mặc dù chúng ít được tán thành, giá trị p có một số đặc quyền. Một số là nổi tiếng và lâu đời, trong khi những người khác là tương đối mới.
Giá trị P cung cấp một chỉ số thuận tiện và quen thuộc về sức mạnh của bằng chứng chống lại giả thuyết null mô hình thống kê.
Khi được tính toán chính xác, giá trị p cung cấp phương tiện để đưa ra quyết định phân đôi (đôi khi cần thiết) và giá trị p giúp giữ tỷ lệ lỗi dương tính lâu dài ở mức chấp nhận được (dienes, 2008; Sakaluk, 2016) [Nó không đúng hoàn toàn để nói rằng giá trị P là bắt buộc cho các quyết định phân đôi. Chúng thực sự được sử dụng rộng rãi theo cách đó, nhưng Neyman & Pearson đã sử dụng 'các khu vực quan trọng' trong không gian thống kê thử nghiệm cho mục đích đó. Xem câu hỏi này và câu trả lời của nó]
- giá trị p có thể được sử dụng để tạo điều kiện lập kế hoạch kích thước mẫu hiệu quả liên tục (không chỉ phân tích công suất một lần) (Lakens, 2014)
- giá trị p có thể được sử dụng để tạo điều kiện cho phân tích tổng hợp và đánh giá giá trị bằng chứng (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Xem blogpost này để biết một cuộc thảo luận có thể truy cập về cách phân phối giá trị p có thể được sử dụng theo cách này, cũng như bài đăng CV này cho một cuộc thảo luận liên quan.
- Giá trị p có thể được sử dụng theo pháp y để xác định liệu các thực tiễn nghiên cứu đáng ngờ có thể đã được sử dụng hay không và kết quả có thể nhân rộng như thế nào (Schimmack, 2014; cũng xem ứng dụng của Schönbrodt, 2015)
Tại sao kích thước hiệu ứng không mong muốn (hoặc được đánh giá cao)?
Có lẽ vị trí phản trực quan nhất đối với nhiều người; Tại sao báo cáo kích thước hiệu ứng được tiêu chuẩn hóa là không mong muốn, hoặc ít nhất, được đánh giá cao?
- Trong một số trường hợp, kích thước hiệu ứng được tiêu chuẩn hóa không phải là tất cả những gì chúng bị bẻ khóa (ví dụ: Greenland, Schlesselman, & Criqui, 1986). Baguely (2009), đặc biệt, có một mô tả hay về một số lý do tại sao kích thước hiệu ứng thô / không đạt tiêu chuẩn có thể được mong muốn hơn.
- Mặc dù tiện ích của chúng để phân tích công suất tiên nghiệm, kích thước hiệu ứng không thực sự được sử dụng một cách đáng tin cậy để tạo điều kiện lập kế hoạch cỡ mẫu hiệu quả (Maxwell, 2004)
- Ngay cả khi kích thước hiệu ứng được sử dụng trong lập kế hoạch kích thước mẫu, bởi vì chúng bị thổi phồng qua độ lệch xuất bản (Rosenthal, 1979) kích thước hiệu ứng được công bố là tiện ích đáng ngờ cho việc lập kế hoạch cỡ mẫu đáng tin cậy (Simonsohn, 2013)
- Các ước tính kích thước hiệu ứng có thể được sử dụng và đã được tính toán sai hệ thống trong phần mềm thống kê (Levine & HONS, 2002)
- Kích thước hiệu ứng bị trích xuất sai (và có thể bị báo cáo sai) làm giảm uy tín của các phân tích tổng hợp (Gøtzsche et al., 2007)
- Cuối cùng, việc sửa lỗi cho sai lệch xuất bản ở kích thước hiệu ứng vẫn không hiệu quả (xem Carter và cộng sự, 2017), nếu bạn tin rằng xu hướng xuất bản tồn tại, sẽ giúp phân tích tổng hợp ít ảnh hưởng hơn.
Tóm lược
Báo lại điểm được thực hiện bởi Michael Lew, giá trị p và kích thước hiệu ứng là hai phần bằng chứng thống kê; Có những người khác đáng xem xét quá. Nhưng giống như giá trị p và kích thước hiệu ứng, các số liệu khác về giá trị chứng minh cũng có chung các vấn đề. Các nhà nghiên cứu thường sử dụng sai khoảng tin cậy và giải thích sai (ví dụ: Hoekstra và cộng sự, 2014; Morey et al., 2016), ví dụ, và kết quả phân tích Bayes có thể bị các nhà nghiên cứu bóp méo, giống như khi sử dụng giá trị p (ví dụ, Simonsohn , 2014).
Tất cả các số liệu bằng chứng đã giành chiến thắng và tất cả phải có giải thưởng.
Người giới thiệu
Hiệp hội tâm lý Mỹ. (2010). Cẩm nang xuất bản của Hiệp hội Tâm lý Hoa Kỳ (tái bản lần thứ 6). Washington, DC: Hiệp hội Tâm lý Hoa Kỳ.
Baguley, T. (2009). Kích thước hiệu ứng chuẩn hoặc đơn giản: Những gì cần được báo cáo?. Tạp chí Tâm lý học Anh, 100 (3), 603-617.
Bakker, M., & W Richts, JM (2011). Báo cáo (mis) về kết quả thống kê trong các tạp chí tâm lý học. Phương pháp nghiên cứu hành vi, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Giới thiệu về phân tích tổng hợp. Tây Sussex, Anh: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, ngày 12 tháng 8). Sửa lỗi cho sai lệch trong tâm lý học: Một so sánh các phương pháp phân tích tổng hợp. Lấy từ osf.io/preprints/psyarxiv/9h3nu
Chân, ME, & Arvey, RD (2012). Phân tích tổng hợp và phát triển kiến thức. Quan điểm về khoa học tâm lý, 7 (1), 79-92.
Cohen, J. (1992). Một mồi điện. Bản tin tâm lý, 112 (1), 155-159.
Cumming, G. (2008). Sao chép và khoảng p: giá trị p chỉ dự đoán tương lai một cách mơ hồ, nhưng khoảng tin cậy làm tốt hơn nhiều. Quan điểm về khoa học tâm lý, 3, 286 Ảo 300.
Diên, D. (2008). Hiểu tâm lý học như một khoa học: Giới thiệu về suy luận khoa học và thống kê. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Kết quả tích cực của Hồi giáo làm tăng thứ bậc của các ngành khoa học. PloS một, 5 (4), e10068.
Gelman, A., & Stern, H. (2006). Sự khác biệt giữa những người quan trọng của người Hồi giáo và người khác không có ý nghĩa về bản chất không phải là có ý nghĩa thống kê. Nhà thống kê người Mỹ, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Lỗi trích xuất dữ liệu trong phân tích tổng hợp sử dụng các khác biệt trung bình được tiêu chuẩn hóa. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Sai lầm của việc sử dụng các hệ số hồi quy tiêu chuẩn hóa và các mối tương quan như là các biện pháp hiệu quả. Tạp chí Dịch tễ học Hoa Kỳ, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Giải thích sai về các khoảng tin cậy. Bản tin & đánh giá tâm lý, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). Đo lường mức độ phổ biến của thực tiễn nghiên cứu đáng ngờ với các khuyến khích cho việc nói sự thật. Tâm lý học, 23 (5), 524-532.
Kirk, RE (2003). Tầm quan trọng của cường độ hiệu ứng. Trong SF Davis (Ed.), Sổ tay về phương pháp nghiên cứu trong tâm lý học thực nghiệm (trang 83 Công cụ 105). Malden, MA: Blackwell.
Lakens, D. (2014). Thực hiện các nghiên cứu năng lượng cao một cách hiệu quả với các phân tích tuần tự. Tạp chí tâm lý xã hội châu Âu, 44 (7), 701-710.
Levine, TR, & Hullett, CR (2002). Eta bình phương, bình phương một phần và bình luận sai về kích thước hiệu ứng trong nghiên cứu truyền thông. Nghiên cứu truyền thông con người, 28 (4), 612-625.
Maxwell, SE (2004). Sự kiên trì của các nghiên cứu thiếu năng lực trong nghiên cứu tâm lý: nguyên nhân, hậu quả và biện pháp khắc phục. Phương pháp tâm lý, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). Sai lầm của việc đặt niềm tin vào khoảng tin cậy. Bản tin & đánh giá tâm lý, 23 (1), 103-123.
Mũi, BA, Điệp viên, JR, & Motyl, M. (2012). Khoa học không tưởng: II. Tái cơ cấu khuyến khích và thực hành để thúc đẩy sự thật về khả năng xuất bản. Quan điểm về khoa học tâm lý, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & W Richts, JM (2016). Tỷ lệ mắc lỗi báo cáo thống kê trong tâm lý học (1985 đi2013). Phương pháp nghiên cứu hành vi, 48 (4), 1205-1226.
Rosenthal, R. (1979). Các vấn đề ngăn kéo tập tin và dung sai cho kết quả null. Bản tin tâm lý, 86 (3), 638-641.
Sakaluk, JK (2016). Khám phá nhỏ, xác nhận lớn: Một hệ thống thay thế cho các số liệu thống kê mới để thúc đẩy nghiên cứu tâm lý tích lũy và nhân rộng. Tạp chí Tâm lý học xã hội thí nghiệm, 66, 47-54.
Schimmack, Hoa Kỳ (2014). Định lượng toàn vẹn nghiên cứu thống kê: Chỉ số tái tạo. Lấy từ http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Tám phản đối phổ biến nhưng sai đối với việc ngừng thử nghiệm ý nghĩa trong phân tích dữ liệu nghiên cứu. Trong LL Harlow, SA Mulaik, & JH Steiger (Eds.), Nếu không có bài kiểm tra quan trọng thì sao? (trang 37 Tiếng64). Mahwah, NJ: Erlbaum.
Schonbrodt, FD (2015). p-checker: Máy phân tích giá trị p cho tất cả. Lấy từ http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý dương tính giả: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học tâm lý, 22 (11), 1359-1366.
Simonsohn, Hoa Kỳ (2013). Sự điên rồ của các bản sao cung cấp năng lượng dựa trên kích thước hiệu ứng quan sát được. Truy xuất từ http://datacolada.org/4
Simonsohn, Hoa Kỳ (2014). Hậu thế hack. Lấy từ http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Đường cong P: Một phím để ngăn kéo tập tin. Tạp chí Tâm lý học Thực nghiệm: Chung, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). Đường cong P và kích thước hiệu ứng: Sửa lỗi cho sai lệch xuất bản chỉ sử dụng kết quả quan trọng. Quan điểm về khoa học tâm lý, 9 (6), 666-681.
Người giàu hơn, JM, Bakker, M., & Molenaar, D. (2011). Sẵn sàng chia sẻ dữ liệu nghiên cứu có liên quan đến sức mạnh của bằng chứng và chất lượng báo cáo kết quả thống kê. PloS một, 6 (11), e26828.