Là giá trị p về cơ bản là vô dụng và nguy hiểm để sử dụng?


36

Bài viết này " Những điều lạ lùng, được cập nhật liên tục" từ NY Times đã thu hút sự chú ý của tôi. Nói ngắn gọn, nó nói rằng

[Thống kê Bayes] đang tỏ ra đặc biệt hữu ích trong việc tiếp cận các vấn đề phức tạp, bao gồm các tìm kiếm như Cảnh sát biển đã sử dụng năm 2013 để tìm ngư dân mất tích, John Aldridge (mặc dù vậy, cho đến nay, trong cuộc săn lùng Chuyến bay 370 của Malaysia Airlines) .. ......, thống kê của Bayes đang gợn qua mọi thứ, từ vật lý đến nghiên cứu ung thư, sinh thái đến tâm lý học ...

Trong bài viết, cũng có một số lời chỉ trích về giá trị p của người thường xuyên, ví dụ:

Kết quả thường được coi là có ý nghĩa thống kê, nếu giá trị p nhỏ hơn 5%. Nhưng có một mối nguy hiểm trong truyền thống này, Andrew Gelman, giáo sư thống kê tại Columbia cho biết. Ngay cả khi các nhà khoa học luôn thực hiện các phép tính một cách chính xác - và họ không làm như vậy, ông lập luận - chấp nhận mọi thứ với giá trị p là 5% có nghĩa là một trong 20 kết quả có ý nghĩa thống kê của một người khác không phải là tiếng ồn ngẫu nhiên.

Bên cạnh đó, có lẽ bài báo nổi tiếng nhất chỉ trích giá trị p là bài này - "Phương pháp khoa học: Lỗi thống kê" của Regina Nuzzo từ Tự nhiên , trong đó rất nhiều vấn đề khoa học được đưa ra bởi phương pháp giá trị p đã được thảo luận, như các vấn đề về khả năng tái tạo, hack giá trị p, v.v.

Giá trị P, "tiêu chuẩn vàng" về giá trị thống kê, không đáng tin cậy như nhiều nhà khoa học giả định. ...... Có lẽ sai lầm tồi tệ nhất là kiểu tự lừa dối mà nhà tâm lý học Uri Simonsohn thuộc Đại học Pennsylvania và các đồng nghiệp đã phổ biến thuật ngữ P-hack; nó còn được gọi là nạo vét dữ liệu, rình mò, câu cá, rượt đuổi ý nghĩa và nhúng đôi. Cạn hack P, hack nói Simonsohn, đã thử nhiều thứ cho đến khi bạn nhận được kết quả mong muốn, ngay cả vô thức. ...... Phát hiện đó dường như có được nhờ hack p, các tác giả đã bỏ một trong những điều kiện để giá trị p tổng thể sẽ nhỏ hơn 0,05 và, Cô ấy là một hacker, cô ấy luôn theo dõi dữ liệu trong khi nó đang được thu thập.

Một điều nữa là một cốt truyện thú vị như sau từ đây , với nhận xét về cốt truyện:

Cho dù hiệu ứng của bạn có nhỏ đến mức nào, bạn luôn có thể thực hiện công việc khó khăn để thu thập dữ liệu để vượt qua ngưỡng p <0,05. Miễn là hiệu ứng bạn đang nghiên cứu không tồn tại, giá trị p chỉ đo lường mức độ nỗ lực của bạn trong việc thu thập dữ liệu.

nhập mô tả hình ảnh ở đây

Với tất cả những điều trên, câu hỏi của tôi là:

  1. Lập luận của Andrew Gelman, trong trích dẫn khối thứ hai, có nghĩa chính xác là gì? Tại sao ông lại giải thích giá trị p 5% là "một trong 20 kết quả có ý nghĩa thống kê đáng chú ý nhưng là nhiễu ngẫu nhiên"? Tôi không bị thuyết phục vì với tôi giá trị p được sử dụng để suy luận về một nghiên cứu duy nhất. Quan điểm của ông dường như liên quan đến nhiều thử nghiệm.

    Cập nhật: Kiểm tra blog của Andrew Gelman về điều này: Không, tôi không nói vậy! (Tín dụng cho @Scortchi, @whuber).

  2. Đưa ra những lời chỉ trích về giá trị p và cũng có rất nhiều tiêu chí thông tin, như AIC, BIC, Mallow's để đánh giá tầm quan trọng của một mô hình (do đó biến), chúng ta không nên sử dụng giá trị p cho lựa chọn biến Nhưng sử dụng những tiêu chí lựa chọn mô hình?Cp

  3. Có hướng dẫn thực tế tốt nào về việc sử dụng giá trị p để phân tích thống kê có thể dẫn đến kết quả nghiên cứu đáng tin cậy hơn không?
  4. Liệu mô hình Bayes sẽ là một cách tốt hơn để theo đuổi, như một số người ủng hộ thống kê? Cụ thể, cách tiếp cận Bayes có nhiều khả năng giải quyết phát hiện sai hoặc thao túng các vấn đề dữ liệu? Tôi cũng không bị thuyết phục ở đây vì trước đó rất chủ quan trong cách tiếp cận Bayes. Có nghiên cứu thực tế và nổi tiếng nào cho thấy phương pháp Bayes tốt hơn giá trị p của người thường xuyên, hoặc ít nhất là trong một số trường hợp cụ thể không?

    Cập nhật: Tôi sẽ đặc biệt quan tâm đến việc có những trường hợp phương pháp tiếp cận Bayes đáng tin cậy hơn phương pháp giá trị p thường xuyên hay không. Theo "đáng tin cậy", ý tôi là cách tiếp cận Bayes ít có khả năng thao túng dữ liệu cho kết quả mong muốn. Bất kỳ đề xuất?


Cập nhật ngày 6/9/2015

Chỉ cần chú ý tin tức, và nghĩ rằng sẽ tốt để đặt nó ở đây để thảo luận.

Tạp chí tâm lý cấm giá trị P

Một thử nghiệm thống kê gây tranh cãi cuối cùng đã kết thúc, ít nhất là trong một tạp chí. Đầu tháng này, các biên tập viên của Tâm lý học xã hội cơ bản và ứng dụng (BASP) tuyên bố rằng tạp chí sẽ không còn xuất bản các bài báo có chứa giá trị P vì các số liệu thống kê thường được sử dụng để hỗ trợ nghiên cứu chất lượng thấp hơn.

Cùng với một bài báo gần đây, "Giá trị P hay thay đổi tạo ra kết quả không thể đạt được" từ Nature , về giá trị P.

Cập nhật ngày 5/8/2016

Trở lại vào tháng 3, Hiệp hội Thống kê Hoa Kỳ (ASA) đã đưa ra các tuyên bố về ý nghĩa thống kê và giá trị p, ".... Tuyên bố ASA nhằm chỉ đạo nghiên cứu về một 'bài p <0,05.'"

Tuyên bố này chứa 6 nguyên tắc giải quyết việc sử dụng sai giá trị p:

  1. Giá trị P có thể chỉ ra mức độ không tương thích của dữ liệu với một mô hình thống kê được chỉ định.
  2. Giá trị P không đo lường xác suất giả thuyết được nghiên cứu là đúng hoặc xác suất dữ liệu được tạo ra chỉ bởi cơ hội ngẫu nhiên.
  3. Kết luận khoa học và các quyết định kinh doanh hoặc chính sách không nên chỉ dựa trên việc giá trị p có vượt qua một ngưỡng cụ thể hay không.
  4. Suy luận đúng yêu cầu báo cáo đầy đủ và minh bạch.
  5. Giá trị p, hoặc ý nghĩa thống kê, không đo lường kích thước của hiệu ứng hoặc tầm quan trọng của kết quả.
  6. Chính nó, một giá trị p không cung cấp một thước đo tốt về bằng chứng liên quan đến một mô hình hoặc giả thuyết.

Chi tiết: "Tuyên bố của ASA về giá trị p: bối cảnh, quy trình và mục đích" .


11
Re 1: Tôi nghi ngờ khối Gelman có thể là một trích dẫn sai, bởi vì nó cần các giả định mạnh mẽ (phản tác dụng) là chính xác. Nếu mọi thứ từng được nghiên cứu trên thế giới đều tuân theo các giả thuyết null của họ và tất cả các giả thuyết null đều đơn giản (và không phải là tổng hợp), thì bằng cách xây dựng 5% tất cả các giá trị p nhỏ hơn sẽ xảy ra một cách tình cờ - là "nhiễu ngẫu nhiên". Tuy nhiên, nếu mọi người luôn thực hiện các thí nghiệm chi tiết, rộng rãi trong đó giả thuyết thay thế là đúng (như trong trích dẫn cuối cùng), thì về cơ bản 100% tất cả các giá trị p sẽ nhỏ hơn và không ai trong số chúng là "nhiễu". 0,05 0,050,050,05
whuber


4
Tìm tốt, @Scortchi! Đối với hồ sơ - trong trường hợp liên kết trở nên tồi tệ - Gelman từ chối một cách dứt khoát đặc tính của NY Times (mặc dù rất khéo léo) và viết "chấp nhận mọi thứ với giá trị p là 5% có thể dẫn đến phát hiện giả Mẫu dữ liệu có ý nghĩa thống kê trong dữ liệu không phản ánh một mẫu tương ứng trong dân số, hơn 5% thời gian. "
whuber

3
Liên quan đến nhận xét của bạn "Miễn là hiệu ứng bạn đang học không tồn tại", đó là điểm nghiên cứu liên quan đến giá trị p để xác định xem hiệu ứng bạn đang học có thực sự hay nếu đặc thù trong dữ liệu bạn đã thu thập chỉ là do cơ hội ngẫu nhiên. Giảm giá trị p với tăng kích thước mẫu là hoàn toàn đúng đắn về mặt toán học và trên thực tế, là lựa chọn duy nhất. Bạn không có cách nào "hack" giá trị p. Từ quan điểm trực quan, điều hợp lý là việc nỗ lực nhiều hơn trong việc thu thập dữ liệu sẽ giúp độ tin cậy cao hơn trong kết luận bạn rút ra từ đó.
David Webb

1
@DavidWebb Đồng ý. Nếu kích thước hiệu ứng nhỏ, điều đó không sao và sẽ dễ dàng hơn để nói hiệu ứng lớn hay nhỏ với nhiều dữ liệu hơn. Nếu bạn có thể nhận được nhiều dữ liệu hơn, bạn nên.
Desty

Câu trả lời:


25

Dưới đây là một số suy nghĩ:

  1. Như @whuber lưu ý, tôi nghi ngờ Gelman nói điều đó (mặc dù anh ta có thể đã nói điều gì đó tương tự). Năm phần trăm các trường hợp null là đúng sẽ mang lại kết quả quan trọng (lỗi loại I) khi sử dụng hệ số alpha 0,05. Nếu chúng tôi giả định rằng sức mạnh thực sự của tất cả các nghiên cứu trong đó null là sai là , thì tuyên bố chỉ có thể đúng nếu tỷ lệ các nghiên cứu được thực hiện trong đó null là đúng với các nghiên cứu trong đó null là sai là . 80%100/118,7584%
  2. Tiêu chí lựa chọn mô hình, chẳng hạn như AIC, có thể được xem như một cách chọn giá trị thích hợp . Để hiểu điều này đầy đủ hơn, có thể giúp đọc câu trả lời của @ Glen_b tại đây: Hồi quy từng bước trong R - Giá trị p quan trọng . Hơn nữa, không có gì ngăn cản mọi người khỏi 'AIC-hack', nếu AIC trở thành yêu cầu xuất bản. p
  3. Một hướng dẫn tốt để điều chỉnh các mô hình theo cách mà bạn không làm mất hiệu lực giá trị của bạn sẽ là cuốn sách của Frank Harrell, Regression Modelling Strategies . p
  4. Tôi không phản đối giáo điều bằng cách sử dụng các phương pháp Bayes, nhưng tôi không tin rằng họ sẽ giải quyết vấn đề này. Ví dụ: bạn chỉ có thể tiếp tục thu thập dữ liệu cho đến khi khoảng tin cậy không còn bao gồm bất kỳ giá trị nào bạn muốn từ chối. Do đó, bạn có "hack đáng tin cậy". Như tôi thấy, vấn đề là nhiều học viên thực sự không quan tâm đến các phân tích thống kê họ sử dụng, vì vậy họ sẽ sử dụng phương pháp nào được yêu cầu theo cách không suy nghĩ và máy móc. Để biết thêm về quan điểm của tôi ở đây, có thể giúp đọc câu trả lời của tôi về: Kích thước hiệu ứng như là giả thuyết cho thử nghiệm quan trọng .

10
(+1) Một cách dễ dàng để hack một khoảng đáng tin cậy là chấp nhận đúng trước :-). Tất nhiên không có học viên có thẩm quyền nào làm điều này - Gelman nhấn mạnh việc sử dụng các đánh giá độ nhạy, các siêu nhân không thông tin, v.v .-- nhưng sau đó, một lần nữa, không có người sử dụng có thẩm quyền nào trong các bài kiểm tra giả thuyết sẽ thực hiện hack giá trị p, phải không? Mặt khác, trong một phân tích Bayes có thể khó khăn hơn để che giấu những gì người ta đang làm - giả sử trước đó được tiết lộ rõ ​​ràng - so với tất cả các phân tích không có giấy tờ có thể liên quan đến hack giá trị p.
whuber

1
@whuber, điều đó đúng, nhưng tôi nghĩ chúng ta có thể đặt sang một bên bất kỳ vấn đề nào với sự không phù hợp hoặc chủ quan của trước đó. Nếu hiệu ứng thực sự không chính xác là 0, thì w / đủ dữ liệu, khoảng thời gian đáng tin cậy cuối cùng sẽ không bao gồm 0, giống như p sẽ là <.05 (cf, trích dẫn cuối cùng), vì vậy bạn chỉ có thể tiếp tục thu thập dữ liệu cho đến khi bạn nhận được kết quả bạn muốn không phân biệt trước.
gung - Phục hồi Monica

4
Điểm tốt. Tôi nhớ lại một câu hỏi gần đây về việc dự đoán thất bại trong 10.000 sản phẩm sau khi quan sát không có thất bại nào trong số 100.000 sản phẩm đó. Câu trả lời là khá nhạy cảm với trước vì thất bại là rất hiếm. Đây có thể là loại tình huống đặc biệt "chứng minh quy tắc"; nó cho thấy rằng trong thực tế có thể không thể thu thập đủ dữ liệu để có được kết quả mong muốn. Đó chính xác là khi một số khách hàng bắt đầu cầu khẩn nhà thống kê "làm phép thuật của họ" để đạt được kết quả mong muốn! Có lẽ nhiều độc giả đã cảm thấy áp lực đó trước khi ....
whuber

1
@gung, trong các thử nghiệm lâm sàng thực tế, luôn có các tiêu chí dừng ở các giai đoạn khác nhau để tuyển dụng thêm đối tượng cho các thí nghiệm. Theo nghĩa đó, liệu cách tiếp cận Bayes có vẻ ít khả năng thao túng khoảng tin cậy do đó kết luận nghiên cứu?
Aaron Zeng

2
@AaronZeng, đối với tôi, các tiêu chí dừng rõ ràng áp dụng như nhau đối với quan điểm của Người thường xuyên & Bayes. Tôi không thấy bất kỳ lợi thế / bất lợi ròng ở đây.
gung - Phục hồi Monica

8

Đối với tôi, một trong những điều thú vị nhất về tranh cãi về hack p là toàn bộ lịch sử của p <= 0,05 là tiêu chuẩn "một lần trong một mặt trăng xanh" có ý nghĩa thống kê, như Joseph Kaldane đã lưu ý trong một bài báo của JASA về thống kê pháp y trở lại những năm 90, hoàn toàn không có lý thuyết thống kê nào. Đó là một quy ước, heuristic đơn giản và quy tắc ngón tay cái bắt đầu với RA Fisher và từ đó đã được thống nhất hoặc tận hiến vào tình trạng "không nghi ngờ" hiện tại của nó. Bayesian hay không, thời gian đã quá lâu để thách thức tiêu chuẩn số liệu này hoặc ít nhất mang đến cho nó sự hoài nghi mà nó xứng đáng.

Điều đó nói rằng, cách giải thích của tôi về quan điểm của Gelman là, như được biết đến, quá trình đánh giá ngang hàng thưởng cho ý nghĩa thống kê tích cực và trừng phạt kết quả không đáng kể bằng cách không xuất bản những bài báo đó. Điều này không liên quan đến việc có hay không công bố một phát hiện không đáng kể sẽ có tác động lớn đến suy nghĩ và lý thuyết hóa cho một miền nhất định. Gelman, Simonshohn và những người khác đã nhiều lần chỉ ra việc lạm dụng mức ý nghĩa 0,05 trong nghiên cứu được công bố và công bố bằng cách đưa ra các ví dụ về những phát hiện vô lý, nhưng có ý nghĩa thống kê trong nghiên cứu tâm lý, xã hội và huyền bí. Một trong những điều nghiêm trọng nhất là phát hiện có ý nghĩa thống kê rằng phụ nữ mang thai có nhiều khả năng mặc váy đỏ. Gelman khẳng định rằng, trong trường hợp không có thách thức logic đối với kết quả thống kê,có khả năng giải thích vô nghĩa. Ở đây, anh ta đang đề cập đến nguy cơ nghề nghiệp của ngành công nghiệp với những lý lẽ quá kỹ thuật và trừu tượng mà ít hoặc không có gì để thúc đẩy một cuộc tranh luận giữa các đối tượng giáo dân.

Đây là một điểm mà Gary King đưa ra một cách kịch liệt khi ông thực tế cầu xin các nhà khoa học chính trị định lượng (và, bằng cách mở rộng, tất cả các bên tham gia) dừng các phóng sự kỹ thuật, cơ học như "kết quả này có ý nghĩa ở mức ap <= 0,05" và tiến tới những diễn giải thực chất hơn . Đây là một trích dẫn từ một bài báo của anh ấy,

(1) truyền đạt các ước tính chính xác bằng số về số lượng lợi ích thực chất lớn nhất, (2) bao gồm các biện pháp không chắc chắn hợp lý về các ước tính đó và (3) đòi hỏi ít kiến ​​thức chuyên môn để hiểu. Tuyên bố đơn giản sau đây thỏa mãn các tiêu chí của chúng tôi: 'Những thứ khác như nhau, một năm học bổ sung sẽ tăng thu nhập hàng năm của bạn trung bình 1.500 đô la, cộng hoặc trừ khoảng 500 đô la.' Bất kỳ học sinh trung học thông minh nào cũng sẽ hiểu câu đó, bất kể mô hình thống kê tinh vi và mạnh mẽ như thế nào mà các máy tính được sử dụng để sản xuất nó.

Quan điểm của nhà vua được thực hiện rất tốt và vạch ra hướng mà cuộc tranh luận cần thực hiện.

Tận dụng tối đa các phân tích thống kê: Cải thiện việc diễn giải và trình bày , King, Tomz và Wittenberg, 2002, Am Jour of Poli Sci .


2
+1 Cảm ơn bạn đã đóng góp dễ đọc, nhiều thông tin và chu đáo cho chủ đề này.
whuber

@whuber Cảm ơn những lời tốt đẹp. Thời gian sẽ cho biết nếu những người tham gia khác đồng ý với nó hay không.
Mike Hunter

2
Tôi có thể bị lừa dối, nhưng tôi muốn nghĩ rằng một số (nếu không phải hầu hết) các cử tri tích cực của chúng tôi không bỏ phiếu trên cơ sở thỏa thuận hoặc không đồng ý, nhưng về việc một bài đăng có trả lời câu hỏi ban đầu theo cách rõ ràng và có thẩm quyền không . Rốt cuộc, văn bản di chuột phía trên biểu tượng upvote có nội dung "Câu trả lời này hữu ích", chứ không phải "Tôi đồng ý với anh chàng này". (Điều này không bị nhầm lẫn với việc bỏ phiếu trên trang web meta của chúng tôi, điều này biểu thị mức độ thỏa thuận.) Một số bằng chứng cho ấn tượng này được cung cấp bởi nhiều huy hiệu thể thao được trao.
whuber

@Whuber Các sắc thái bạn chỉ ra được lưu ý hợp lệ.
Mike Hunter

@whuber chủ đề này là nguồn gốc của việc tôi sử dụng từ bị lừa dối trong cuộc trò chuyện của chúng tôi vào ngày khác.
Mike Hunter

5

Dưới đây là một số suy nghĩ của tôi về Câu hỏi 3 sau khi đọc tất cả các ý kiến ​​và câu trả lời sâu sắc.

Có lẽ một hướng dẫn thực tế trong phân tích thống kê để tránh hack giá trị p là thay vào đó hãy xem xét kích thước hiệu quả có ý nghĩa / về mặt sinh học (hoặc về mặt sinh học, lâm sàng, v.v.).

θ

H0:θ= =0vS.Hmột:θ0,
H0:θ<δvS.Hmột:θδ,
δ

Ngoài ra, để tránh sử dụng cỡ mẫu quá lớn để phát hiện hiệu ứng, kích thước mẫu cần phải được tính đến. Đó là, chúng ta nên đặt một giới hạn về kích thước mẫu tối đa được sử dụng cho thí nghiệm.

Tóm lại,

  1. Chúng ta cần xác định trước một ngưỡng cho kích thước hiệu ứng có ý nghĩa để tuyên bố ý nghĩa;
  2. Chúng ta cần xác định trước một ngưỡng cho kích thước mẫu được sử dụng trong thử nghiệm để định lượng mức độ có thể phát hiện của kích thước hiệu ứng có ý nghĩa;

Do đó, có lẽ chúng ta có thể tránh được hiệu ứng "đáng kể" nhỏ được yêu cầu bởi một cỡ mẫu lớn.


[Cập nhật ngày 6/9/2015]

Về Câu hỏi 3, đây là một số gợi ý dựa trên bài báo gần đây từ tự nhiên: "Giá trị P hay thay đổi tạo ra kết quả không thể đạt được" như tôi đã đề cập trong phần Câu hỏi.

  1. Báo cáo ước tính kích thước hiệu ứng và độ chính xác của chúng, tức là khoảng tin cậy 95%, vì những thông tin có nhiều thông tin hơn này trả lời chính xác các câu hỏi như sự khác biệt lớn như thế nào, hoặc mối quan hệ hoặc mối quan hệ đó mạnh đến mức nào;
  2. Đặt ước tính kích thước hiệu ứng và 95% TCTD vào bối cảnh của các nghiên cứu / câu hỏi khoa học cụ thể và tập trung vào mức độ phù hợp của chúng để trả lời các câu hỏi đó và giảm giá trị P hay thay đổi;
  3. Thay thế phân tích công suất bằng " lập kế hoạch cho độ chính xác " để xác định cỡ mẫu cần thiết để ước tính kích thước hiệu ứng để đạt đến một mức độ chính xác xác định.

[Kết thúc cập nhật 6/9/2015]


4
H0:θ= =δ

@AndyW, Cảm ơn các ý kiến. Tôi đã thay đổi câu trả lời của mình cho phù hợp. Điều đó có vẻ là một lựa chọn tốt hơn?
Aaron Zeng

2
+1 để tham khảo bài viết Tự nhiên đó. Tuy nhiên, nó chứa một số thông tin sai lệch đáng kinh ngạc, chẳng hạn như cách giải thích giá trị p (không được báo trước) của Bayesian: "Ví dụ, nếu một nghiên cứu thu được P = 0,03, có 90% khả năng một nghiên cứu sao chép sẽ trả về giá trị P ở đâu đó giữa phạm vi rộng 0 0 0,6 (khoảng dự đoán 90%), trong khi đó khả năng P <0,05 chỉ là 56%. " Tôi tự hỏi phân phối trước mà các tác giả đang giả định - và tại sao điều đó thậm chí có liên quan?
whuber

@AndyW và Aaron Zeng, thậm chí tốt hơn là kết hợp các kết quả từ cả hai thử nghiệm cho sự khác biệt các thử nghiệm cho sự tương đương. Bằng cách đó, người ta đặt cả kích thước hiệu ứng có liên quan và sức mạnh thống kê vào kết luận mà người ta rút ra (xem phần về các thử nghiệm liên quan).
Alexis

3

P(D|H0)αH0H0

  1. Nó ngụ ý rằng 1/20 kết quả có thể từ chối null khi họ không nên có. Nếu khoa học dựa trên kết luận về các thí nghiệm đơn lẻ thì tuyên bố đó sẽ được bảo vệ. Mặt khác, nếu các thí nghiệm được lặp lại, điều đó có nghĩa là 19/20 sẽ không bị từ chối. Đạo đức của câu chuyện là các thí nghiệm nên được lặp lại.

  2. Khoa học là một truyền thống dựa trên "tính khách quan" nên "xác suất khách quan" tự nhiên hấp dẫn. Hãy nhớ lại rằng các thí nghiệm được cho là chứng minh mức độ kiểm soát cao thường sử dụng thiết kế khối và ngẫu nhiên hóa để kiểm soát các yếu tố bên ngoài nghiên cứu. Do đó, so sánh với ngẫu nhiên có ý nghĩa bởi vì tất cả các yếu tố khác được cho là được kiểm soát ngoại trừ những yếu tố đang được nghiên cứu. Những kỹ thuật này đã rất thành công trong nông nghiệp và công nghiệp trước khi được chuyển sang khoa học.

  3. Tôi không chắc liệu thiếu thông tin có thực sự là vấn đề không. Đáng chú ý là đối với nhiều người trong các ngành khoa học phi toán học, số liệu thống kê chỉ là một hộp để đánh dấu.

  4. Tôi muốn đề nghị một bài đọc chung về lý thuyết quyết định kết hợp hai khung. Nó chỉ đơn giản là sử dụng nhiều thông tin như bạn có. Thống kê thường xuyên giả định các tham số trong các mô hình có giá trị không xác định từ các phân phối cố định. Bayes cho rằng các tham số trong các mô hình đến từ các bản phân phối được điều chỉnh bởi những gì chúng ta biết. Nếu có đủ thông tin để tạo thành thông tin trước và đủ để cập nhật thông tin đó thành một hậu thế chính xác thì thật tuyệt vời. Nếu không có thì bạn có thể sẽ có kết quả tồi tệ hơn.


1

Độ lặp lại của kết quả kiểm tra thống kê

Đây là một bài tập ngắn, đơn giản để đánh giá độ tái lập của các quyết định dựa trên kiểm tra thống kê.

Hãy xem xét một giả thuyết H0 null với một loạt các giả thuyết thay thế có chứa H1 và H2. Thiết lập quy trình kiểm tra giả thuyết thống kê ở mức ý nghĩa 0,05 để có công suất 0,8, nếu H1 là đúng. Hơn nữa giả sử rằng công suất cho H2 là 0,5. Để đánh giá độ tái lập của kết quả thử nghiệm, thí nghiệm được xem xét thực hiện quy trình thử nghiệm hai lần. Bắt đầu với tình huống, trong đó H0 là đúng, xác suất cho kết quả của thí nghiệm chung được hiển thị trong Bảng 1. Xác suất không thể tái tạo các quyết định là 0,095.

Bảng 1. Tần suất, nếu H0 là đúng

Freqbạnency.of.dectôiStôionReject.H0Retmộttôin.H0Reject.H00,00250,0485Retmộttôin.H00,04850,9025

Các tần số thay đổi khi trạng thái thực sự của tự nhiên thay đổi. Giả sử H1 là đúng, H0 có thể bị loại bỏ khi được thiết kế với công suất 0,8. Tần số kết quả cho các kết quả khác nhau của thí nghiệm chung được hiển thị trong Bảng 2. Xác suất không thể tái tạo các quyết định là 0,32.

Bảng 2. Các tần suất, nếu H1 là đúng

Freqbạnency.of.dectôiStôionReject.H0Retmộttôin.H0Reject.H00,640,16Retmộttôin.H00,160,04

Giả sử H2 là đúng, H0 sẽ bị loại với xác suất 0,5. Tần số kết quả cho các kết quả khác nhau của thử nghiệm chung được hiển thị trong Bảng 3. Xác suất không thể tái tạo các quyết định là 0,5.

Bảng 3. Các tần suất, nếu H2 đúng

Freqbạnency.of.dectôiStôionReject.H0Retmộttôin.H0Reject.H00,250,25Retmộttôin.H00,250,25

Quy trình kiểm tra được thiết kế để kiểm soát lỗi loại I (loại bỏ giả thuyết null mặc dù nó đúng) với xác suất 0,05 và giới hạn lỗi loại II (không từ chối giả thuyết null mặc dù nó sai và H1 là đúng) đến 0,2. Đối với cả hai trường hợp, với H0 hoặc H1 được coi là đúng, điều này dẫn đến các tần số không đáng kể, lần lượt là 0,095 và 0,32, của các quyết định "không thể lặp lại", "mâu thuẫn", nếu cùng một thí nghiệm được lặp lại hai lần. Tình hình trở nên tồi tệ hơn với tần suất lên tới 0,5 đối với các quyết định "không thể tái sản xuất", "mâu thuẫn", nếu trạng thái tự nhiên thực sự nằm giữa null- và giả thuyết thay thế được sử dụng để thiết kế thí nghiệm.

Tình hình cũng có thể trở nên tốt hơn - nếu lỗi loại 1 được kiểm soát chặt chẽ hơn hoặc nếu trạng thái tự nhiên thực sự ở rất xa null, điều này dẫn đến khả năng từ chối null gần bằng 1.

Do đó, nếu bạn muốn có nhiều quyết định tái sản xuất hơn, hãy tăng mức ý nghĩa và sức mạnh của các bài kiểm tra của bạn. Không có gì đáng ngạc nhiên ...


(+1) Nhưng bạn không thể đặt giá trị p thành 5% trước khi thử nghiệm - nghĩ rằng bạn có nghĩa là "mức ý nghĩa".
Scortchi - Phục hồi Monica

Cảm ơn bạn. Điều tương tự trong câu cuối: "giảm mức ý nghĩa và tăng sức mạnh"
Scortchi - Tái lập Monica

Tôi nghĩ vấn đề lớn nhất với giá trị p là mọi người nhầm lẫn chúng với ý nghĩa thực sự. Vì vậy, nếu p <0,05 có nghĩa là kích thước hiệu ứng được phát hiện đủ lớn để quan trọng. Tôi được yêu cầu tại nơi làm việc để tạo ra các hiệu ứng đáng kể bằng cách tạo ra các giá trị p.
dùng54285
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.