Thống kê được công bố trong các bài báo học thuật


44

Tôi đã đọc rất nhiều bài báo học thuật tiến hóa / sinh thái, đôi khi với mục đích cụ thể là xem cách sử dụng số liệu thống kê 'trong thế giới thực' bên ngoài sách giáo khoa. Tôi thường lấy số liệu thống kê trong các bài báo làm phúc âm và sử dụng các bài báo để giúp đỡ trong việc học thống kê của mình. Rốt cuộc, nếu một bài báo đã mất nhiều năm để viết và đã trải qua đánh giá ngang hàng nghiêm ngặt, thì chắc chắn các số liệu thống kê sẽ trở nên vững chắc? Nhưng trong vài ngày qua, tôi đã đặt câu hỏi về giả định của mình và tự hỏi mức độ thường xuyên phân tích thống kê được công bố trong các bài báo học thuật là gì? Cụ thể, có thể dự kiến ​​rằng những người trong các lĩnh vực như sinh thái và tiến hóa đã dành ít thời gian hơn để học thống kê và có nhiều thời gian hơn để học các lĩnh vực của họ.

Làm thế nào thường xuyên mọi người tìm thấy số liệu thống kê nghi ngờ trong các bài báo học tập?



18
Những người phản biện thường là những người không biết nhiều về thống kê hơn những người viết bài, vì vậy thường có thể dễ dàng xuất bản số liệu thống kê kém.
Behacad

9
Nhận được một bài báo được xuất bản là bước đầu tiên hướng tới sự chấp nhận của nó bởi cộng đồng khoa học, chứ không phải cuối cùng. Hầu hết các bài báo được xuất bản sẽ có những sai sót đáng kể trong một số lĩnh vực, việc sử dụng số liệu thống kê cũng không ngoại lệ.
Dikran Marsupial

3
Giả định của bạn rằng các bài báo "mất nhiều năm để viết" là không phù hợp. Việc thu thập dữ liệu có thể mất nhiều thời gian nhưng phân tích dữ liệu và viết lên thường là vài tuần thay vì nhiều năm.
David Richerby

2
Ngày nay người ta biết rằng số liệu thống kê trong nhiều bài báo về tâm lý học và y học ít nhất là nghi vấn, thậm chí sai hoặc thậm chí không thường xuyên. Việc sử dụng giá trị p và NHST của người nghèo là một ví dụ nổi bật về các vấn đề, xem lưu ý này .
Quartz

Câu trả lời:


38

Rốt cuộc, nếu một bài báo đã mất nhiều năm để viết và đã trải qua đánh giá ngang hàng nghiêm ngặt, thì chắc chắn các số liệu thống kê sẽ trở nên vững chắc?

Kinh nghiệm của tôi về việc đọc các bài báo cố gắng áp dụng số liệu thống kê trên nhiều lĩnh vực (khoa học chính trị, kinh tế, tâm lý học, y học, sinh học, tài chính, khoa học tính toán, kế toán, quang học, thiên văn học, và nhiều, nhiều lĩnh vực khác) là chất lượng của phân tích thống kê có thể là bất cứ nơi nào trên phổ từ xuất sắc và được thực hiện tốt đến vô nghĩa. Tôi đã thấy phân tích tốt trong tất cả các lĩnh vực tôi đã đề cập, và phân tích được thực hiện khá kém trong hầu hết tất cả chúng.

Một số tạp chí nói chung là khá tốt, và một số có thể giống như chơi phi tiêu bằng bịt mắt - bạn có thể nhận được hầu hết chúng không quá xa mục tiêu, nhưng sẽ có một số ít trên tường, sàn và trần nhà. Và có thể là con mèo.

Tôi không có kế hoạch đặt tên cho bất kỳ thủ phạm nào, nhưng tôi sẽ nói rằng tôi đã thấy sự nghiệp học thuật được xây dựng dựa trên việc sử dụng sai số liệu thống kê (nghĩa là những sai lầm và hiểu lầm tương tự được lặp lại trên giấy sau hơn một thập kỷ).

Vì vậy, lời khuyên của tôi là hãy để người đọc cẩn thận ; đừng tin rằng các biên tập viên và người đánh giá ngang hàng biết họ đang làm gì. Theo thời gian, bạn có thể hiểu rõ về việc các tác giả thường có thể dựa vào để không làm điều gì quá sốc, và những tác giả nào nên được đối xử đặc biệt thận trọng. Bạn có thể hiểu rằng một số tạp chí thường có tiêu chuẩn rất cao cho số liệu thống kê của họ.

Nhưng ngay cả một tác giả giỏi thường có thể mắc lỗi, hoặc các trọng tài và biên tập viên có thể không nhận lỗi mà họ thường thấy; một tạp chí tốt thường có thể xuất bản một hú.

[Đôi khi, bạn thậm chí sẽ thấy những bài báo thực sự tồi tệ giành được giải thưởng hoặc giải thưởng ... điều đó không nói lên nhiều về chất lượng của những người đánh giá giải thưởng.]

Tôi không muốn đoán phần nhỏ các số liệu thống kê "xấu" mà tôi có thể đã thấy (trong nhiều vỏ bọc khác nhau và ở mọi giai đoạn từ xác định câu hỏi, thiết kế nghiên cứu, thu thập dữ liệu, quản lý dữ liệu, ... cho đến phân tích và kết luận), nhưng nó không đủ nhỏ để tôi cảm thấy thoải mái.

Tôi có thể chỉ ra các ví dụ, nhưng tôi không nghĩ đây là diễn đàn phù hợp để làm điều đó. (Nó sẽ được tốt đẹp nếu có một diễn đàn tốt cho điều đó, trên thực tế, nhưng sau đó một lần nữa, nó có khả năng sẽ trở nên rất "chính trị hóa" khá nhanh chóng, và chẳng mấy chốc không phục vụ mục đích của nó.)

Tôi đã dành một chút thời gian để tìm hiểu về PLOS ONE ... và một lần nữa, sẽ không chỉ ra các giấy tờ cụ thể. Một số điều tôi nhận thấy: có vẻ như một tỷ lệ lớn các bài báo có số liệu thống kê trong đó, có lẽ hơn một nửa có các bài kiểm tra giả thuyết. Các mối nguy hiểm chính dường như có rất nhiều thử nghiệm, với mức cao như 0,05 trên mỗi thử nghiệm (không phải là vấn đề tự động miễn là chúng ta hiểu rằng khá nhiều hiệu ứng thực sự nhỏ có thể xuất hiện đáng kể do tình cờ), hoặc cực kỳ khó tin mức ý nghĩa cá nhân thấp , sẽ có xu hướng cung cấp năng lượng thấp. Tôi cũng thấy một số trường hợp trong đó có khoảng nửa tá xét nghiệm khác nhauαrõ ràng đã được áp dụng để giải quyết chính xác cùng một câu hỏi. Điều này đánh tôi là một ý tưởng tồi tệ nói chung. Nhìn chung, tiêu chuẩn là khá tốt trong vài chục bài báo, nhưng trong quá khứ tôi đã thấy một bài báo hoàn toàn khủng khiếp ở đó.

[Có lẽ tôi có thể thưởng thức chỉ trong một ví dụ, một cách gián tiếp. Câu hỏi này hỏi về một người làm điều gì đó khá mơ hồ. Nó cách xa điều tồi tệ nhất tôi từng thấy.]

Mặt khác, tôi cũng thấy (thậm chí thường xuyên hơn) các trường hợp mọi người buộc phải nhảy qua tất cả các loại vòng không cần thiết để phân tích của họ được chấp nhận; những điều hoàn toàn hợp lý để làm không được chấp nhận bởi vì có một cách "đúng" để làm những việc theo người đánh giá hoặc biên tập viên hoặc người giám sát, hoặc chỉ trong văn hóa bất thành văn của một khu vực cụ thể.


2
" Caveat lector ", với số lượng ngày càng tăng của các tạp chí truy cập mở?
Scortchi - Tái lập Monica

1
@scortchi Tôi quyết định tránh vấn đề hoàn toàn bằng cách viết bằng tiếng Anh. Đó là một sự cải tiến.
Glen_b

10
Không nêu tên thủ phạm cụ thể, tôi nghĩ rằng khoa.vassar.edu/abbaird/about/publications/pdfs/ cảm thấy xứng đáng được đề cập. Để chứng minh một quan điểm về việc lạm dụng số liệu thống kê trong lĩnh vực của họ, họ đã sử dụng một giao thức thống kê được sử dụng rộng rãi để phân tích kết quả quét fMRI của một con cá hồi đã chết. Họ tìm thấy hoạt động não "có ý nghĩa thống kê". Statisticsdonewrong.com cũng làm cho việc đọc thú vị.
James_pic

1
@James_pic, đã phải tham gia +1 nhận xét đó cho liên kết thống kê; các cuộc thảo luận về sai lầm tỷ lệ cơ sở là đặc biệt thú vị.
Dan Bryant

1
@KennyPeanuts: Không - chỉ cần chỉ ra rằng hiện nay nhiều lectores thậm chí không gián tiếp emptores .
Scortchi - Tái lập Monica

16

Tôi tôn trọng lập trường của @ Glen_b về cách trả lời đúng ở đây (và chắc chắn không có ý định gièm pha nó), nhưng tôi không thể cưỡng lại việc chỉ ra một ví dụ giải trí đặc biệt gần nhà tôi. Có nguy cơ chính trị hóa mọi thứ và thực hiện mục đích của câu hỏi này, tôi đề nghị Wagenmakers, Wetzels, Boorsboom và Van Der Maas (2011) . Tôi đã trích dẫn điều này trong một bài đăng liên quan trên Khoa học nhận thức beta SE ( Khoa học nhận thức giải thích chủ ý xa xôi và chức năng não ở người nhận như thế nào? ), Trong đó xem xét một ví dụ khác về "phi tiêu đánh con mèo". Mặc dù vậy, bài viết của Wagenmakers và các đồng nghiệp đã bình luận trực tiếp về một "howler" thực sự: nó đã được xuất bản trên JPSP (một trong những tạp chí lớn nhất về tâm lý học) vài năm trước. Họ cũng tranh luận chung hơn để ủng hộ phân tích Bayes và rằng:

Để thuyết phục khán giả hoài nghi về một yêu cầu gây tranh cãi, người ta cần tiến hành các nghiên cứu xác nhận nghiêm ngặt và phân tích kết quả bằng các xét nghiệm thống kê bảo thủ hơn là tự do.

Tôi có lẽ không cần phải nói với bạn rằng điều này không chính xác đi qua khi giảng cho dàn hợp xướng. FWIW, cũng có một phản bác (vì dường như luôn có giữa người Bayes và người thường xuyên; ( Bem, Utts, & Johnson, 2011 ) , nhưng tôi có cảm giác rằng nó không chính xác là người tranh luận về cuộc tranh luận .

Tâm lý học như một cộng đồng khoa học đã có một chút thay đổi gần đây, một phần do những thiếu sót về phương pháp học cao cấp này. Các ý kiến ​​khác ở đây chỉ ra các trường hợp tương tự như những gì từng được gọi là tương quan voodoo trong khoa học thần kinh xã hội (làm thế nào BTW không chính trị? Bài báo đã được đổi tên; Vul, Harris, Winkielman, & Pashler, 2009 ). Điều đó cũng thu hút sự phản bác của nó , mà bạn có thể kiểm tra để tranh luận thêm về các thực tiễn gây tranh cãi.

Để biết thêm chi tiết về chi phí (giả mạo hơn) của các nhà thống kê (giả) hành xử tồi, hãy xem câu hỏi hiện nay được đánh giá cao thứ 8 của chúng tôi trên CV với một tiêu đề chính trị khác (thừa nhận), " Những tội lỗi thống kê phổ biến là gì? " @MikeLawrence gán cảm hứng của mình cho nghiên cứu song song về tâm lý học và thống kê. Đó là một trong những sở thích cá nhân của tôi và câu trả lời của nó rất hữu ích để tránh vô số cạm bẫy ngoài kia.


Về mặt cá nhân, tôi đã dành phần lớn năm tháng cuối cùng của mình ở đây phần lớn bởi vì thật khó để có được số liệu thống kê vững chắc về các câu hỏi phân tích dữ liệu nhất định. Thành thật mà nói, đánh giá ngang hàng thường không quá nghiêm ngặt, đặc biệt là về mặt kiểm tra thống kê nghiên cứu trong khoa học trẻ với các câu hỏi phức tạp và nhiều biến chứng epistemia. Do đó, tôi cảm thấy cần phải có trách nhiệm cá nhân trong việc đánh bóng các phương pháp trong công việc của mình.

Trong khi trình bày nghiên cứu luận án của mình , tôi đã hiểu được trách nhiệm cá nhân quan trọng như thế nào đối với việc xem xét thống kê. Hai nhà tâm lý học đặc biệt tại trường cũ của tôi đã xen vào rằng tôi đã phạm một trong những tội lỗi cơ bản nhất trong những diễn giải về mối tương quan của tôi. Tôi đã nghĩ bản thân mình ở trên nó, và đã giảng bài cho sinh viên về nó nhiều lần rồi, nhưng tôi vẫn đến đó và được gọi về nó (từ rất sớm, cảm ơn trời). Tôi đến đó vì nghiên cứu tôi đang xem xét và nhân rộng đã đến đó! Vì vậy, tôi đã kết thúc việc thêm một số phần vào luận án của mình đã kêu gọi những nhà nghiên cứu khác giả định nguyên nhân từ các nghiên cứu dọc thử nghiệm gần như (đôi khi thậm chí từ các mối tương quan cắt ngang) và bỏ qua các giải thích thay thế sớm.

Luận án của tôi đã được ủy ban của tôi chấp nhận mà không cần sửa đổi, trong đó bao gồm một nhà tâm lý học đặc biệt khác và sắp trở thành chủ tịch của SPSP (công bố JPSP), nhưng nói thẳng ra một lần nữa, tôi không khoe khoang khi nói điều này. Kể từ đó, tôi đã tìm cách chọc một số lỗ thỏ bằng phương pháp của riêng mình mặc dù đã vượt qua quá trình đánh giá bên ngoài với những người đánh giá hoàn toàn tốt. Bây giờ tôi đã rơi vào tận cùng của các số liệu thống kê khi cố gắng kết hợp chúng với các phương pháp phù hợp hơn để mô hình hóa dự đoán xếp hạng Likert như SEM, IRT và phân tích không theo tỷ lệ (xem Kiểm tra hồi quy sau khi giảm kích thước). Tôi đang chọn tự nguyện dành nhiều năm cho một bài báo mà có lẽ tôi chỉ có thể xuất bản - thay vào đó ... Tôi nghĩ rằng tôi thậm chí còn có một nghiên cứu mô phỏng để làm trước khi tôi có thể tiến hành một cách tận tâm.

Tuy nhiên, tôi nhấn mạnh rằng đây là tùy chọn - thậm chí có thể quá nhiệt tình và xa xỉ tốn kém giữa văn hóa xuất bản hoặc hư hỏng thường nhấn mạnh số lượng hơn chất lượng trong hồ sơ công việc sớm. Việc sử dụng sai các mô hình tham số cho dữ liệu liên tục để phân phối dữ liệu thứ tự vi phạm giả định là quá phổ biến trong lĩnh vực của tôi, cũng như việc giải thích sai và trình bày sai về ý nghĩa thống kê (xem Điều chỉnh các quan điểm cố định của giá trị p ). Tôi hoàn toàn có thể thoát khỏi nó (trong thời gian ngắn) ... và thậm chí không khó để làm tốt hơn thế. Tôi cho rằng tôi có vài năm gần đây có những tiến bộ đáng kinh ngạc trong các chương trình R để cảm ơn vì điều đó! Đây là hy vọng thời đại đang thay đổi.


Tài liệu tham khảo
· Bem, DJ, Utts, J., & Johnson, WO (2011). Các nhà tâm lý học phải thay đổi cách họ phân tích dữ liệu của họ? Tạp chí tính cách và tâm lý xã hội, 101 (4), 716 Từ719. Lấy từ http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Tương quan cao khó hiểu trong các nghiên cứu fMRI về cảm xúc, tính cách và nhận thức xã hội. Quan điểm về khoa học tâm lý, 4 (3), 274 Từ290. Lấy từ http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). Tại sao các nhà tâm lý học phải thay đổi cách họ phân tích dữ liệu của họ: Trường hợp của psi. Tạp chí tính cách và tâm lý xã hội, 100 , 426 Hay432. Lấy từ http://mpdc.mae.cornell.edu/Cifts/MAE714/Papers/Bem6.pdf .


1
Nếu bạn thích "Cảm nhận tương lai", thì bạn có thể thích Witztum et al. (1994), "Trình tự thư tương đương trong sách Sáng thế", Statist. Khoa học. , 9 , 3 . Nó thu hút những người chế giễu không thể tránh khỏi & những người nói nay: McKay et. al. (1999), "Giải câu đố về Kinh thánh", Statist. Khoa học. , 14 , 2 .
Scortchi - Tái lập Monica

1
@Scortchi: cảm ơn bạn đã tham khảo và amip: cảm ơn vì bối cảnh. Tôi không thấy yêu cầu trong Witzum et al. mà McKay và cộng sự. chế giễu trong bản tóm tắt của họ, nhưng họ chắc chắn chỉ ra rất nhiều sai sót nghiêm trọng khác. Đồ tốt. "Trong khi dữ liệu thực có thể làm xáo trộn kỳ vọng của các nhà khoa học ngay cả khi giả thuyết của họ là chính xác, những người có thí nghiệm thiên về hệ thống đối với kỳ vọng của họ thường ít thất vọng hơn (Rosenthal, 1976)." Đó là một trong những người kêu gọi tôi suy luận dựa trên các thí nghiệm gần đúng ... một nhà tâm lý học thực sự tuyệt vời. Bem cũng có một số tín dụng.
Nick Stauner

2
+1 Bài đăng xuất sắc. " Trách nhiệm cá nhân quan trọng như thế nào đối với việc xem xét thống kê " - Tôi phải hoan nghênh. Cuối cùng, đây là nơi trách nhiệm phải nói dối, vì nó có thể dành cho ai đó đã cố gắng hoàn thành công việc trong một lĩnh vực nghiên cứu mà họ muốn áp dụng số liệu thống kê.
Glen_b

1
@NickStauner: McKay et al. nói trong bản tóm tắt của họ rằng Witzum et al. tuyên bố "văn bản tiếng Hê-bơ-rơ của Sách Sáng thế mã hóa các sự kiện không xảy ra cho đến hàng thiên niên kỷ sau khi văn bản được viết". Có lẽ cường điệu nhẹ, vì nó chỉ hơn hai milimet nhiều nhất giữa cách viết của Torah và ngày sinh của giáo sĩ cuối cùng trong danh sách của họ, nhưng một bản tóm tắt đủ công bằng. (Tôi cho rằng bạn cũng có thể nhìn thấy giấy Witztum et al làm bằng chứng cho tác giả gần đây của Sách Sáng Thế, mặc dù như xa như tôi biết không ai đã làm..)
Scortchi - Khôi phục Monica

1
Vâng, tôi đoán tôi không thể hiểu Witzum et al. đủ để nhận ra rằng họ đã đưa ra yêu sách đó. Lần đầu tiên tôi cho rằng tôi có thể biết ơn vì cách viết khó hiểu của các tác giả ... Nó xuất hiện như một chút thú vị hơn về mệnh giá bởi vì tuyên bố nổi bật nhất là mô hình không phải là do tình cờ, không phải do mô hình được cho là do theo ý kiến ​​của họ. Nó có thể đã mời những diễn giải thú vị hơn như của bạn nếu nó không được phản ứng thái quá như McKay et al. nói rằng nó ... ít nhất là cho đến khi McKay et al. bắn hạ họ trên cơ sở phương pháp luận, không để lại gì đáng để giải thích.
Nick Stauner

5

Tôi nhớ lại ở trường đại học được hỏi bởi một vài sinh viên khoa học xã hội năm cuối vào những dịp khác nhau (một trong số họ có điểm 1) làm thế nào để tính trung bình cho dự án của họ có một số điểm dữ liệu. (Vì vậy, họ không gặp vấn đề với việc sử dụng phần mềm, chỉ với khái niệm về cách làm toán bằng máy tính.)

Họ chỉ cho tôi vẻ trống rỗng khi tôi hỏi họ loại trung bình họ muốn.

Tuy nhiên, tất cả họ đều cảm thấy cần phải đưa một số số liệu thống kê vào báo cáo của mình, vì đó là điều đã được thực hiện - tôi hy vọng họ đã đọc tất cả 101 bài báo có số liệu thống kê mà không nghĩ về số liệu thống kê có ý nghĩa gì.

Rõ ràng là nhà nghiên cứu đã dạy họ trong 3 năm không quan tâm đến tính chính xác của các số liệu thống kê đủ để đánh lạc hướng mọi hiểu biết về sinh viên.

(Lúc đó tôi là một sinh viên khoa học máy tính. Tôi đang đăng bài này dưới dạng câu trả lời vì nó hơi dài cho một nhận xét.)


Học sinh là một thùng khỉ khác, IMO. Tôi sẽ không đổ lỗi cho giáo viên ngay lập tức vì sự thiếu hiểu biết của họ mà không có thêm bằng chứng ... nhưng nếu rõ ràng như bạn nói rằng giáo viên sẽ đổ lỗi, tôi cũng sẽ không ngạc nhiên.
Nick Stauner

@NickStauner, tôi trách giáo viên đã không quan tâm đúng mức đến chỉ số; Nếu họ quan tâm, sẽ có ít nhất một câu hỏi trên mỗi bài thi cần một số hiểu biết về các số liệu thống kê, ở cấp độ Cách thức nói dối với Thống kê. Tôi không quan tâm nếu sinh viên khoa học xã hội biết cách làm calc, nhưng họ nên biết làm thế nào để không bị lừa dối.
Ian Ringrose

Đồng ý rằng họ nên biết, nhưng không có gì đảm bảo họ sẽ hiểu đúng câu hỏi đó!
Nick Stauner

@NickStauner, Có, nhưng bạn chỉ có được số đo, vì vậy bạn sẽ không khiến học sinh hiểu bất cứ điều gì về số liệu thống kê trừ khi bạn đưa nó vào các bài kiểm tra.
Ian Ringrose

Một lần nữa, tôi có xu hướng cung cấp cho giáo viên ít tín dụng hơn cho kết quả của học sinh. Rất nhiều sinh viên (được thôi, có thể không "nhiều", nhưng một số) sẽ quan tâm đủ để học vì lợi ích của chính họ, và một số sẽ đến lớp đã biết nhiều về tài liệu. Hãy tha thứ cho tôi nếu tôi diễn giải nhận xét của bạn quá tuyệt đối; Tôi đồng ý rằng thường là một điều ác cần thiết để thúc đẩy động lực học tập đối với học sinh và kiểm tra là cách học tốt hơn so với học vẹt, học / giảng bài lặp đi lặp lại.
Nick Stauner

0

Là một danh sách không đầy đủ, tôi thấy thống kê thường xuyên chính xác nhất trong 1) bài báo vật lý theo sau là 2) bài báo thống kê và khổ nhất trong 3) bài báo y khoa. Những lý do cho điều này là đơn giản và phải làm với sự hoàn chỉnh của các yêu cầu áp đặt cho mô hình nguyên mẫu trong mỗi lĩnh vực.

Trong các bài báo vật lý, các phương trình và thống kê ứng dụng phải chú ý đến các đơn vị cân bằng và có sự xuất hiện thường xuyên nhất của các mối quan hệ nhân quả và kiểm tra các tiêu chuẩn vật lý.

Trong thống kê, 1) đơn vị và quan hệ nhân quả đôi khi bị bỏ qua, các giả định đôi khi là heuristic và kiểm tra vật lý quá thường bị bỏ qua, nhưng sự bình đẳng (hoặc bất bình đẳng), nghĩa là logic thường được bảo tồn theo một đường dẫn quy nạp, trong đó điều sau không thể đúng giả định phi vật lý.

Trong y học, các đơn vị điển hình được bỏ qua, các phương trình và giả định thường là heuristic, thường không được kiểm tra và thường xuyên giả mạo.

Đương nhiên, một lĩnh vực như cơ học thống kê có nhiều khả năng có các giả định có thể kiểm chứng hơn, chúng ta hãy nói, kinh tế học, và, điều đó không phản ánh về tài năng của các tác giả tương lai trong các lĩnh vực đó. Nó liên quan nhiều hơn đến bao nhiêu những gì đang được thực hiện có thể kiểm tra được, và bao nhiêu thử nghiệm đã được thực hiện trong lịch sử trong từng lĩnh vực.


-7

Bất kỳ bài báo nào bác bỏ giả thuyết không có giá trị đều sử dụng số liệu thống kê vô giá trị (phần lớn những gì tôi đã thấy). Quá trình này có thể cung cấp không có thông tin chưa được cung cấp bởi kích thước hiệu ứng. Hơn nữa nó không cho chúng ta biết gì về việc liệu một kết quả quan trọng có thực sự là do nguyên nhân được lý thuyết hóa bởi nhà nghiên cứu hay không. Điều này đòi hỏi phải điều tra chu đáo các dữ liệu để tìm bằng chứng về các vết thương. Thông thường, nếu có mặt, mạnh nhất của bằng chứng này thậm chí còn bị ném đi dưới dạng "ngoại lệ".

Tôi không quá quen thuộc với tiến hóa / sinh thái, nhưng trong trường hợp nghiên cứu tâm lý và y học, tôi sẽ gọi mức độ hiểu biết thống kê là "bối rối nghiêm trọng" và "một trở ngại cho tiến bộ khoa học". Mọi người được cho là đang từ chối một cái gì đó được dự đoán bởi lý thuyết của họ, chứ không phải ngược lại với nó (không có sự khác biệt / hiệu ứng).

Đã có hàng ngàn bài báo viết về chủ đề này. Tra cứu NHST lai tranh cãi.

Chỉnh sửa: Và tôi có nghĩa là thử nghiệm ý nghĩa giả thuyết không có giá trị không có giá trị khoa học tối đa. Người này đánh vào đầu đinh:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulation-ledgeledge/

Ngoài ra: Paul Meehl. 1967. Kiểm tra lý thuyết trong Tâm lý học và Vật lý: Một nghịch lý phương pháp luận

Chỉnh sửa 3:

Nếu ai đó có lý lẽ ủng hộ sự hữu ích của người rơm NHST không đòi hỏi phải suy nghĩ "bác bỏ giả thuyết rằng tốc độ ấm lên là như nhau, nhưng ĐỪNG lấy điều này để ám chỉ rằng tốc độ ấm lên là không giống nhau" là một lý do tuyên bố, tôi sẽ hoan nghênh ý kiến ​​của bạn.

Chỉnh sửa 4:

Fisher có ý gì khi trích dẫn sau đây? Liệu nó gợi ý rằng ông nghĩ "Nếu mô hình / lý thuyết A là không phù hợp với dữ liệu, chúng ta có thể nói A là sai sự thật, nhưng không có gì về việc liệu không A là đúng"?

"chắc chắn rằng sự quan tâm của các thử nghiệm thống kê đối với các nhà khoa học phụ thuộc hoàn toàn vào việc họ sử dụng trong việc bác bỏ các giả thuyết được đánh giá là không phù hợp với các quan sát."

...

Do đó, nó sẽ bổ sung rất nhiều vào sự rõ ràng trong đó các xét nghiệm có ý nghĩa được xem xét nếu thường được hiểu rằng các xét nghiệm có ý nghĩa, khi được sử dụng chính xác, có khả năng bác bỏ hoặc làm mất hiệu lực các giả thuyết, cho đến khi những điều này bị mâu thuẫn bởi dữ liệu ; nhưng họ không bao giờ có khả năng thiết lập chúng là chắc chắn đúng

Karl Pearson và RA Fisher trong các bài kiểm tra thống kê: Một cuộc trao đổi năm 1935 từ thiên nhiên

Có phải ông cho rằng mọi người sẽ chỉ cố gắng vô hiệu hóa các giả thuyết hợp lý chứ không phải là người rơm? Hoặc là tôi sai?


7
"Quá trình này có thể cung cấp không có thông tin chưa được cung cấp bởi kích thước hiệu ứng." Điều này là không chính xác, giá trị p cung cấp một số thông tin về mức độ bất thường của kích thước hiệu ứng này theo giả thuyết null, do đó nó cung cấp một yếu tố hiệu chuẩn kích thước hiệu ứng. Đừng hiểu lầm tôi, tôi nghĩ các yếu tố Bayes hữu ích hơn, nhưng thật quá đáng khi nói rằng giá trị p là một thống kê vô giá trị.
Dikran Marsupial

3
"Tôi thấy rằng tất cả các mẫu mà tôi (và những người khác) nhận thấy đều đáng được đề cập" đây chính xác là vấn đề nảy sinh trong cuộc thảo luận về khí hậu trên blog, mắt người rất tốt khi nhìn thấy các mẫu trong dữ liệu hóa ra chỉ là tiếng ồn, và nó làm cho tỷ lệ tín hiệu trên tạp âm trong cuộc tranh luận không tốt chút nào khi không có một trở ngại nào cho một ý tưởng để vượt qua trước khi đăng nó lên blog! Đây là một lĩnh vực của khoa học mà số liệu thống kê thường rất kém.
Dikran Marsupial

2
Sống động, tôi đã cho bạn một ví dụ cụ thể về việc thực hiện NHST thích hợp với "người rơm" H0 sẽ có ích cho cuộc thảo luận về một chủ đề khoa học. Cung cấp một phản ví dụ rõ ràng thể hiện quan điểm của bạn là không chính xác - NHSTs, như thiếu sót như họ đang có, làm vẫn thực hiện một chức năng hữu ích trong khoa học và thống kê. Bây giờ nếu bạn có thể chứng minh rằng ví dụ của tôi là chính xác, điều đó có thể đi theo một cách nào đó để giải quyết vấn đề.
Dikran Marsupial

2
@Livid, NHST thực hiện chức năng khoa học và thống kê, không mong muốn về mặt xã hội (mặc dù không tối ưu) và nó không đặt ra một trở ngại tùy tiện, rào cản thường được xác định bởi sự phản đối của nó đối với H1 và nó không liên quan đến việc "khẳng định hậu quả ngụy biện "khi từ chối H0 không có nghĩa là H1 là đúng. Vì vậy, không chính xác.
Dikran Marsupial

3
Bạn đang bị mất điểm. Nếu bạn có một rào cản thấp, thì không ai ngạc nhiên nếu bạn có thể thương lượng thành công. Tuy nhiên nếu bạn có một chướng ngại vật thấp, nhưng bạn vẫn không thể vượt qua nó, điều đó cho bạn biết điều gì đó. Như tôi đã nhiều lần nói, từ chối null không có nghĩa là H1 là đúng, vì vậy, từ chối H0 không có nghĩa là chắc chắn có tạm dừng, nó không cho bạn biết lý do tại sao đã có tạm dừng. Nhưng nếu bạn không thể vượt qua rào cản để có thể từ chối H0, điều đó cho thấy rằng có lẽ không đủ bằng chứng để khẳng định H1 là sự thật (đó là những gì đang xảy ra trong trường hợp này).
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.