Các nhà khoa học của người Viking nổi lên chống lại ý nghĩa thống kê là gì? (Nhận xét trong tự nhiên)


61

Tiêu đề của Nhận xét trong Tự nhiên Các nhà khoa học nổi lên chống lại ý nghĩa thống kê bắt đầu bằng:

Valentin Amrhein, Sander Greenland, Blake McShane và hơn 800 người ký kết kêu gọi chấm dứt tuyên bố thổi phồng và bác bỏ các tác động có thể quan trọng.

và sau này chứa các câu như:

Một lần nữa, chúng tôi không ủng hộ lệnh cấm đối với các giá trị P, khoảng tin cậy hoặc các biện pháp thống kê khác - chỉ là chúng tôi không nên đối xử với chúng một cách phân loại. Điều này bao gồm sự phân đôi có ý nghĩa thống kê hay không, cũng như phân loại dựa trên các biện pháp thống kê khác như các yếu tố Bayes.

Tôi nghĩ rằng tôi có thể hiểu rằng hình ảnh dưới đây không nói rằng hai nghiên cứu không đồng ý vì một "quy tắc" không có hiệu lực trong khi nghiên cứu còn lại thì không. Nhưng bài báo dường như đi sâu hơn nhiều so với tôi có thể hiểu.

Về cuối, dường như có một bản tóm tắt trong bốn điểm. Có thể tóm tắt những điều này bằng những thuật ngữ thậm chí đơn giản hơn cho những người trong chúng ta đọc số liệu thống kê thay vì viết nó?

Khi nói về khoảng tương thích, hãy ghi nhớ bốn điều.

  • Đầu tiên, chỉ vì khoảng cho các giá trị tương thích nhất với dữ liệu, với các giả định, không có nghĩa là các giá trị bên ngoài nó không tương thích; chúng chỉ kém tương thích ...

  • Thứ hai, không phải tất cả các giá trị bên trong đều tương thích với dữ liệu, với các giả định ...

  • Thứ ba, giống như ngưỡng 0,05 mà nó xuất hiện, 95% mặc định được sử dụng để tính các khoảng thời gian tự nó là một quy ước tùy ý ...

  • Cuối cùng, và quan trọng nhất trong tất cả, hãy khiêm tốn: các đánh giá tương thích xoay quanh tính chính xác của các giả định thống kê được sử dụng để tính khoảng ...


Bản chất: Các nhà khoa học vươn lên chống lại ý nghĩa thống kê


13
Về cơ bản, họ muốn điền vào các tài liệu nghiên cứu với những mặt tích cực hơn nữa!
David

12
Xem cuộc thảo luận trên blog của Gelman: statmodeling.stat.columbia.edu/2019/03/20/ . Rõ ràng bài báo nêu lên một số điểm hợp lệ, nhưng hãy xem những bình luận của Ioannidis chống lại bài viết này (và cũng, riêng biệt, chống lại khía cạnh "kiến nghị" của nó), như trích dẫn của Gelman.
amip nói rằng Phục hồi Monica

3
Đây không phải là một khái niệm mới. Phân tích tổng hợp là một điều tốt hơn trong 50 năm qua và Cochrane đã thực hiện phân tích tổng hợp các nghiên cứu y tế / chăm sóc sức khỏe (nơi dễ dàng chuẩn hóa các mục tiêu và kết quả) trong 25 năm qua.
Graham

4
Về cơ bản, vấn đề đang cố gắng giảm "sự không chắc chắn" là một vấn đề đa chiều xuống một con số.
MaxW

4
Về cơ bản nếu mọi người tuyên bố "chúng tôi không tìm thấy bằng chứng nào về mối liên hệ giữa X và Y" thay vì "X và Y không liên quan" khi tìm thấy thì bài viết này sẽ không tồn tại. p>α
Firebird

Câu trả lời:


65

Ba điểm đầu tiên, theo như tôi có thể nói, là một biến thể của một đối số duy nhất.

Các nhà khoa học thường coi các phép đo không chắc chắn ( ví dụ ) là các phân phối xác suất trông như thế này:12±1

phân phối xác suất thống nhất

Khi thực sự, chúng có nhiều khả năng trông như thế này : nhập mô tả hình ảnh ở đây

Là một nhà hóa học trước đây, tôi có thể xác nhận rằng nhiều nhà khoa học có nền tảng phi toán học (chủ yếu là các nhà hóa học và nhà sinh học phi vật lý) không thực sự hiểu sự không chắc chắn (hoặc lỗi, như họ gọi) như thế nào để hoạt động. Họ nhớ lại một thời gian trong vật lý học đại học, nơi họ có thể phải sử dụng chúng, thậm chí có thể phải tính toán một lỗi tổng hợp thông qua một số phép đo khác nhau, nhưng họ không bao giờ thực sự hiểu chúng. Tôi cũng có tội về điều này và cho rằng tất cả các phép đo phải đến trong khoảng thời gian . Chỉ gần đây (và bên ngoài học viện), tôi mới phát hiện ra rằng các phép đo lỗi thường đề cập đến độ lệch chuẩn nhất định, không phải là giới hạn tuyệt đối.±

Vì vậy, để phá vỡ các điểm được đánh số trong bài viết:

  1. Các phép đo bên ngoài CI vẫn có cơ hội xảy ra, bởi vì xác suất thực (có thể là gaussian) là khác không (hoặc bất cứ nơi nào cho vấn đề đó, mặc dù chúng trở nên nhỏ bé khi bạn đi ra ngoài). Nếu các giá trị sau thực sự đại diện cho một sd, thì vẫn có 32% khả năng điểm dữ liệu nằm ngoài chúng.±

  2. Phân phối không đồng đều (đứng đầu phẳng, như trong biểu đồ đầu tiên), nó được đạt đỉnh. Bạn có nhiều khả năng nhận được một giá trị ở giữa hơn là bạn ở các cạnh. Nó giống như gieo một con súc sắc, hơn là một con súc sắc.

  3. 95% là một điểm cắt tùy ý và trùng khớp gần như chính xác với hai độ lệch chuẩn.

  4. Điểm này là nhiều hơn một nhận xét về sự trung thực trong học tập nói chung. Một nhận thức mà tôi có trong thời gian làm Tiến sĩ là khoa học không phải là một thế lực trừu tượng, đó là nỗ lực tích lũy của những người cố gắng làm khoa học. Đây là những người đang cố gắng khám phá những điều mới mẻ về vũ trụ, nhưng đồng thời cũng đang cố gắng giữ cho con cái họ được ăn và giữ công việc của chúng, điều không may trong thời hiện đại có nghĩa là một hình thức xuất bản hoặc diệt vong đang diễn ra. Trong thực tế, các nhà khoa học phụ thuộc vào những khám phá vừa chân thực vừa thú vị , bởi vì kết quả không thú vị không dẫn đến các ấn phẩm.

Các ngưỡng tùy ý như thường có thể tự tồn tại, đặc biệt là trong số những người không hiểu đầy đủ về thống kê và chỉ cần một dấu vượt qua / thất bại trên kết quả của họ. Do đó, mọi người đôi khi nói nửa đùa nửa thật về 'chạy lại bài kiểm tra cho đến khi bạn nhận được '. Nó có thể rất hấp dẫn, đặc biệt là nếu bằng tiến sĩ / trợ cấp / việc làm đang đi theo kết quả, đối với các kết quả cận biên này, được cho đến khi mong muốn xuất hiện trong phân tích.p<0.05p<0.05p=0.0498

Những thực hành như vậy có thể gây bất lợi cho toàn bộ khoa học, đặc biệt là nếu nó được thực hiện rộng rãi, tất cả trong việc theo đuổi một con số trong mắt tự nhiên, vô nghĩa. Phần này có hiệu lực đang khuyến khích các nhà khoa học trung thực về dữ liệu và công việc của họ, ngay cả khi sự trung thực đó gây bất lợi cho họ.


26
+1 cho "... xuất bản hoặc diệt vong đang diễn ra. Trong thực tế, các nhà khoa học phụ thuộc vào những khám phá vừa chân thực vừa thú vị, vì kết quả không thú vị không dẫn đến kết quả xuất bản." Có một bài báo thú vị xuất hiện từ nhiều năm trước, nói về việc "xuất bản hoặc diệt vong" này dẫn đến lỗi / sai lệch trong học viện: Tại sao hầu hết các kết quả nghiên cứu được công bố là sai (Ioannidis, 2005)
J. Taylor

4
Tôi không đồng ý với sự không chắc chắn của Gaussian thực sự (có thể là Gaussian) ... Rời - Gaussian là một sự đơn giản hóa khác. Nó có phần hợp lý hơn so với mô hình giới hạn cứng nhờ Định lý giới hạn trung tâm, nhưng phân phối thực sự nói chung vẫn có gì đó khác biệt.
rời khỏi

1
@leftaroundabout Phân phối thực sự có thể vẫn khác nhau, nhưng trừ khi giá trị là không thể về mặt vật lý, xác suất có thể vẫn là về mặt toán học.
gerrit

3
@leftaroundabout nói rằng sự không chắc chắn có khả năng Gaussian không phải là một sự đơn giản hóa. Nó mô tả phân phối trước, được CLT chứng minh là phân phối tốt nhất trước khi không có dữ liệu hỗ trợ khác, nhưng bằng cách thể hiện sự không chắc chắn về phân phối, sự thừa nhận rằng phân phối không thể là Gaussian đã có sẵn.
Will

7
@inisfree bạn rất, rất nhầm. Nhiều ngành khoa học (như hóa học và sinh học, như tôi đã nói trước đó) sử dụng toán học gần như bằng không, bên cạnh số học cơ bản. Có những nhà khoa học lỗi lạc ngoài kia gần như không biết toán, và tôi đã gặp một vài người trong số họ.
Ingolifs

19

Phần lớn bài viết và con số bạn đưa vào đưa ra một điểm rất đơn giản:

Thiếu bằng chứng cho một hiệu ứng không phải là bằng chứng cho thấy nó không tồn tại.

Ví dụ,

"Trong nghiên cứu của chúng tôi, những con chuột được cho uống xyanua không chết với tỷ lệ cao hơn đáng kể về mặt thống kê" không phải là bằng chứng cho tuyên bố "xyanua không có tác dụng đối với cái chết của chuột".

p>0.05

Nhưng đây là sai lầm mà các tác giả tuyên bố các nhà khoa học thường mắc phải.

Ví dụ trong hình của bạn, đường màu đỏ có thể phát sinh từ một nghiên cứu trên rất ít chuột, trong khi đường màu xanh có thể phát sinh từ nghiên cứu chính xác, nhưng trên nhiều con chuột.

[60%,70%]65%. Sau đó, chúng ta nên viết rằng kết quả của chúng tôi sẽ tương thích nhất với giả định rằng liều này giết chết 65% chuột, nhưng kết quả của chúng tôi cũng sẽ tương thích với tỷ lệ phần trăm thấp đến 60 hoặc cao là 70 và kết quả của chúng tôi sẽ ít tương thích hơn với một sự thật nằm ngoài phạm vi đó (Chúng ta cũng nên mô tả những giả định thống kê mà chúng ta thực hiện để tính toán những con số này.)


4
Tôi không đồng ý với tuyên bố rằng "không có bằng chứng không phải là bằng chứng vắng mặt". Tính toán công suất cho phép bạn xác định khả năng xem xét hiệu ứng của một kích thước cụ thể có ý nghĩa, với một kích thước mẫu cụ thể. Kích thước hiệu ứng lớn đòi hỏi ít dữ liệu hơn để coi chúng khác biệt đáng kể so với không, trong khi các hiệu ứng nhỏ yêu cầu kích thước mẫu lớn hơn. Nếu nghiên cứu của bạn được cung cấp đúng cách và bạn vẫn không thấy hiệu quả đáng kể, thì bạn có thể kết luận một cách hợp lý rằng hiệu quả không tồn tại. Nếu bạn có đủ dữ liệu, không quan trọng thực sự có thể cho thấy không có hiệu lực.
Hạt nhân Wang

1
@NucleWang Đúng, nhưng chỉ khi phân tích công suất được thực hiện trước thời hạn và chỉ khi nó được thực hiện với các giả định chính xác và sau đó diễn giải đúng (nghĩa là sức mạnh của bạn chỉ liên quan đến độ lớn của kích thước hiệu ứng mà bạn dự đoán; "80% sức mạnh "không có nghĩa là bạn có xác suất 80% để phát hiện chính xác hiệu ứng bằng không ). Ngoài ra, theo kinh nghiệm của tôi, việc sử dụng "không đáng kể" có nghĩa là "không có tác dụng" thường được áp dụng cho các kết quả thứ cấp hoặc các sự kiện hiếm gặp, mà nghiên cứu này (không phù hợp) không được cung cấp cho dù sao đi nữa. Cuối cùng, beta thường là >> alpha.
Bryan Krause

9
@NucleWang, tôi không nghĩ có ai tranh luận "thiếu bằng chứng là KHÔNG BAO GIỜ bằng chứng vắng mặt", tôi nghĩ họ không nên tự động giải thích như vậy và đây là sai lầm mà họ thấy mọi người mắc phải.
usul

Nó gần giống như mọi người không được đào tạo trong các bài kiểm tra tương đương hoặc một cái gì đó.
Alexis

19

Tôi sẽ thử.

  1. Khoảng tin cậy (mà họ đổi tên khoảng tương thích) hiển thị các giá trị của tham số tương thích nhất với dữ liệu. Nhưng điều đó không có nghĩa là các giá trị ngoài khoảng hoàn toàn không tương thích với dữ liệu.
  2. Các giá trị gần giữa khoảng tin cậy (tương thích) tương thích với dữ liệu hơn các giá trị gần cuối của khoảng.
  3. 95% chỉ là một quy ước. Bạn có thể tính 90% hoặc 99% hoặc bất kỳ khoảng% nào.
  4. Khoảng tin cậy / tương thích chỉ hữu ích nếu thử nghiệm được thực hiện đúng, nếu phân tích được thực hiện theo kế hoạch đặt trước và dữ liệu phù hợp với giả định của phương pháp phân tích. Nếu bạn có dữ liệu xấu được phân tích xấu, khoảng tương thích sẽ không có ý nghĩa hoặc hữu ích.

10

P>0.05P<0.05


8
(-1) Giá trị P không cho bạn biết liệu một giả thuyết có thể đúng hay sai. Bạn cần một phân phối trước cho điều đó. Xem xkcd này , ví dụ. Việc vẫy tay có vấn đề dẫn đến sự nhầm lẫn này là nếu chúng ta có các linh mục tương tự cho một số lượng lớn giả thuyết, thì giá trị p sẽ tỷ lệ thuận với xác suất đó là đúng hay sai. Nhưng trước khi xem bất kỳ dữ liệu nào, một số giả thuyết có thể xảy ra hơn nhiều so với những dữ liệu khác!
Vách đá AB

3
Mặc dù hiệu ứng này là thứ không nên giảm giá, nhưng nó không phải là một điểm quan trọng của bài viết được tham khảo.
RM

6

tl; dr - Về cơ bản không thể chứng minh rằng mọi thứ không liên quan; số liệu thống kê chỉ có thể được sử dụng để hiển thị khi mọi thứ liên quan. Mặc dù thực tế đã được thiết lập tốt này, mọi người thường xuyên hiểu sai sự thiếu ý nghĩa thống kê để ngụ ý thiếu mối quan hệ.


Một phương pháp mã hóa tốt sẽ tạo ra một bản mã mà theo như kẻ tấn công có thể nói, không có bất kỳ mối quan hệ thống kê nào với thông điệp được bảo vệ. Bởi vì nếu một kẻ tấn công có thể xác định một số loại mối quan hệ, sau đó họ có thể nhận được thông tin về các tin nhắn được bảo vệ của bạn bằng cách chỉ nhìn vào ciphertext - mà là một Bad Thing TM .

Tuy nhiên, bản mã và bản rõ tương ứng của nó 100% xác định lẫn nhau. Vì vậy, ngay cả khi các nhà toán học giỏi nhất thế giới không thể tìm thấy bất kỳ mối quan hệ quan trọng nào cho dù họ có cố gắng thế nào, rõ ràng chúng ta vẫn biết rằng mối quan hệ không chỉ ở đó, mà đó hoàn toàn là quyết định. Chủ nghĩa quyết định này có thể tồn tại ngay cả khi chúng ta biết rằng không thể tìm thấy mối quan hệ .

Mặc dù vậy, chúng tôi vẫn nhận được những người sẽ làm những việc như:

  1. Chọn một số mối quan hệ mà họ muốn "từ chối ".

  2. Thực hiện một số nghiên cứu về nó là không đủ để phát hiện mối quan hệ bị cáo buộc.

  3. Báo cáo thiếu một mối quan hệ có ý nghĩa thống kê.

  4. Xoay điều này thành một mối quan hệ thiếu.

Điều này dẫn đến tất cả các loại " nghiên cứu khoa học " mà các phương tiện truyền thông sẽ (giả mạo) báo cáo là từ chối sự tồn tại của một số mối quan hệ.

Nếu bạn muốn thiết kế nghiên cứu của riêng mình xung quanh vấn đề này, có rất nhiều cách bạn có thể thực hiện:

  1. Nghiên cứu lười biếng:
    Cách dễ nhất, cho đến nay, là cực kỳ lười biếng về nó. Nó giống như từ hình đó được liên kết trong câu hỏi:
    .
    Bạn có thể dễ dàng nhận được bằng cách đơn giản là có kích thước mẫu nhỏ, cho phép nhiều tiếng ồn và nhiều thứ lười biếng khác. Thực tế, nếu bạn lười như vậy thì không thu thập bất kỳ dữ liệu nào , sau đó bạn đã hoàn tất!'Non-significant' study(high P value)"

  2. Phân tích lười biếng:
    Đối với một số lý do ngớ ngẩn, một số người cho rằng hệ số tương quan Pearson bằng có nghĩa là " không tương quan ". Đó là sự thật, trong một ý nghĩa rất hạn chế. Nhưng, đây là một vài trường hợp cần quan sát: . Đây là, có thể không có mối quan hệ " tuyến tính ", nhưng rõ ràng có thể có một mối quan hệ phức tạp hơn. Và nó không cần phải là " mã hóa " -level phức tạp, mà là " thực ra chỉ là một dòng nguệch ngoạc " hoặc " có hai mối tương quan " hoặc bất cứ điều gì.0

  3. Lười trả lời:
    Theo tinh thần của những điều trên, tôi sẽ dừng lại ở đây. Để, ya biết, lười biếng!

Nhưng, nghiêm túc, bài viết tổng hợp nó trong:

Chúng ta hãy rõ ràng về những gì phải dừng lại: chúng ta không bao giờ nên kết luận rằng "không có sự khác biệt" hoặc "không liên kết" chỉ vì giá trị P lớn hơn ngưỡng như 0,05 hoặc tương đương, bởi vì khoảng tin cậy bao gồm 0.


+1 nguyên nhân những gì bạn viết là cả đúng và kích thích tư duy. Tuy nhiên, theo ý kiến ​​khiêm tốn của tôi, bạn có thể chứng minh rằng hai đại lượng là không hợp lý theo các giả định nhất định. Bạn phải Offcourse khởi đầu bằng ví dụ giả một bản phân phối nào đó về họ, nhưng điều này có thể dựa trên các định luật vật lý, hay thống kê (ví dụ như tốc độ của các phân tử của một chất khí trong một container được dự kiến sẽ được gaussian hoặc vân vân)
ntg

3
@ntg Vâng, thật khó để biết cách diễn đạt một số nội dung này, vì vậy tôi đã bỏ qua rất nhiều. Ý tôi là, sự thật chung là chúng ta không thể chứng minh rằng một số mối quan hệ tồn tại, mặc dù chúng ta thường có thể chứng minh rằng một mối quan hệ cụ thể không tồn tại. Giống như, chúng ta không thể thiết lập hai chuỗi dữ liệu không liên quan với nhau, nhưng chúng ta có thể xác định rằng chúng dường như không liên quan đáng tin cậy bởi một hàm tuyến tính đơn giản.
Nat

1
-1 "tl; dr- Về cơ bản không thể chứng minh rằng mọi thứ không liên quan": Các thử nghiệm tương đương cung cấp bằng chứng về việc không có hiệu ứng trong một kích thước hiệu ứng tùy ý.
Alexis

2
@Alexis Tôi nghĩ bạn hiểu sai về kiểm tra tương đương; bạn có thể sử dụng thử nghiệm tương đương để chứng minh sự vắng mặt của một mối quan hệ nhất định, ví dụ như mối quan hệ tuyến tính, nhưng không chứng minh sự vắng mặt của bất kỳ mối quan hệ nào.
Nat

1
@Alexis Suy luận thống kê có thể cung cấp cho bạn nhiều bằng chứng về việc không có hiệu ứng lớn hơn kích thước hiệu ứng cụ thể trong bối cảnh của một số mô hình . Có lẽ bạn đang cho rằng mô hình sẽ luôn được biết đến?
Nat

4

Để giới thiệu giáo huấn về vấn đề này, Alex Reinhart đã viết một cuốn sách hoàn toàn có sẵn trực tuyến và được chỉnh sửa tại No Starch Press (với nhiều nội dung hơn): https://www.statisticdonewrong.com

Nó giải thích gốc rễ của vấn đề mà không cần các phép toán phức tạp và có các chương cụ thể với các ví dụ từ tập dữ liệu mô phỏng:

https://www.statisticdonewrong.com/p-value.html

https://www.statisticdonewrong.com/regression.html

Trong liên kết thứ hai, một ví dụ đồ họa minh họa vấn đề giá trị p. Giá trị P thường được sử dụng như một chỉ số duy nhất về sự khác biệt thống kê giữa các tập dữ liệu nhưng rõ ràng là không đủ.

Chỉnh sửa để có câu trả lời chi tiết hơn:

Trong nhiều trường hợp, các nghiên cứu nhằm tái tạo một loại dữ liệu chính xác, hoặc là các phép đo vật lý (giả sử số lượng hạt trong máy gia tốc trong một thí nghiệm cụ thể) hoặc các chỉ số định lượng (như số bệnh nhân phát triển các triệu chứng cụ thể trong các thử nghiệm thuốc). Trong tình huống này, nhiều yếu tố có thể can thiệp vào quá trình đo lường như lỗi của con người hoặc các biến thể của hệ thống (mọi người phản ứng khác nhau với cùng một loại thuốc). Đây là lý do các thí nghiệm thường được thực hiện hàng trăm lần nếu có thể và thử nghiệm thuốc được thực hiện, lý tưởng nhất là trên đoàn hệ của hàng ngàn bệnh nhân.

Tập dữ liệu sau đó được giảm xuống các giá trị đơn giản nhất bằng cách sử dụng số liệu thống kê: phương tiện, độ lệch chuẩn, v.v. Vấn đề trong việc so sánh các mô hình thông qua giá trị trung bình của chúng là các giá trị đo được chỉ là các chỉ số của các giá trị thực và cũng thay đổi theo thống kê tùy thuộc vào số lượng và độ chính xác của các phép đo riêng lẻ. Chúng tôi có nhiều cách để đưa ra dự đoán tốt về các biện pháp có khả năng giống nhau và không, nhưng chỉ với một sự chắc chắn nhất định. Ngưỡng thông thường là để nói rằng nếu chúng ta có ít hơn một trong hai mươi cơ hội sai khi nói hai giá trị là khác nhau, chúng ta coi chúng là "khác nhau về mặt thống kê" (đó là ý nghĩa của ), thì chúng ta không kết luận.P<0.05

Điều này dẫn đến các kết luận kỳ lạ được minh họa trong bài viết của Nature, trong đó hai biện pháp tương tự cho cùng một giá trị trung bình nhưng kết luận của các nhà nghiên cứu khác nhau do kích thước của mẫu. Điều này và các bước khác từ từ vựng và thói quen thống kê đang ngày càng trở nên quan trọng hơn trong các ngành khoa học. Một khía cạnh khác của vấn đề là mọi người có xu hướng quên rằng họ sử dụng các công cụ thống kê và kết luận về hiệu quả mà không cần xác minh chính xác sức mạnh thống kê của các mẫu của họ.

Đối với một minh họa khác, gần đây khoa học xã hội và đời sống đang trải qua một cuộc khủng hoảng sao chép thực sự do thực tế là rất nhiều hiệu ứng đã được cấp bởi những người không kiểm tra sức mạnh thống kê thích hợp của các nghiên cứu nổi tiếng (trong khi các dữ liệu khác làm sai lệch nhưng đây là một vấn đề khác).


3
Mặc dù không chỉ là một liên kết, câu trả lời này có tất cả các đặc điểm nổi bật của " câu trả lời chỉ liên kết ". Để cải thiện câu trả lời này, vui lòng kết hợp các điểm chính vào câu trả lời. Lý tưởng nhất, câu trả lời của bạn sẽ hữu ích như một câu trả lời ngay cả khi nội dung của các liên kết biến mất.
RM

2
Về giá trị p và sai lầm tỷ lệ cơ sở (được đề cập trong liên kết của bạn), Veritasium đã xuất bản video này được gọi là bẫy bayesian .
jjmontes

2
Xin lỗi, tôi sẽ cố gắng cải thiện và phát triển câu trả lời sớm nhất có thể. Ý tưởng của tôi cũng là cung cấp tài liệu hữu ích cho người đọc tò mò.
G.Clavier

1
@ G.Clavier và người mới thống kê tự mô tả người đọc và người đọc tò mò đánh giá cao nó!
uhoh

1
@uhoh Vui mừng khi đọc nó. :)
G.Clavier

4

Đối với tôi, phần quan trọng nhất là:

... [Chúng tôi] kêu gọi các tác giả thảo luận về ước tính điểm, ngay cả khi họ có giá trị P lớn hoặc khoảng rộng, cũng như thảo luận về các giới hạn của khoảng đó.

Nói cách khác: Đặt trọng tâm cao hơn vào việc thảo luận các ước tính (trung tâm và khoảng tin cậy) và nhấn mạnh thấp hơn vào "Thử nghiệm giả thuyết Null".

Làm thế nào điều này làm việc trong thực tế? Rất nhiều nghiên cứu tập trung vào việc đo kích thước hiệu ứng, ví dụ: "Chúng tôi đã đo tỷ lệ rủi ro là 1,20, với 95% CI dao động từ 0,97 đến 1,33". Đây là một bản tóm tắt phù hợp của một nghiên cứu. Bạn có thể thấy ngay kích thước hiệu ứng có thể xảy ra nhất và độ không đảm bảo của phép đo. Sử dụng tóm tắt này, bạn có thể nhanh chóng so sánh nghiên cứu này với các nghiên cứu khác giống như nó, và lý tưởng nhất là bạn có thể kết hợp tất cả các phát hiện trong một trung bình có trọng số.

Thật không may, các nghiên cứu như vậy thường được tóm tắt là "Chúng tôi không tìm thấy sự gia tăng đáng kể về tỷ lệ rủi ro". Đây là một kết luận hợp lệ của nghiên cứu trên. Nhưng nó không phải là một bản tóm tắt phù hợp của nghiên cứu, bởi vì bạn không thể dễ dàng so sánh các nghiên cứu sử dụng các loại tóm tắt này. Bạn không biết nghiên cứu nào có số đo chính xác nhất và bạn không thể biết được kết quả của nghiên cứu meta có thể là gì. Và bạn không ngay lập tức phát hiện ra khi các nghiên cứu tuyên bố "tăng tỷ lệ rủi ro không đáng kể" bằng cách có khoảng tin cậy quá lớn, bạn có thể giấu một con voi trong đó.


Điều đó phụ thuộc vào giả thuyết null của một người. Ví dụ: từ chối cung cấp bằng chứng về sự vắng mặt của hiệu ứng lớn hơn một nhỏ tùy ý . H0:|θ|ΔΔ
Alexis

1
Có, nhưng tại sao thậm chí còn bận tâm thảo luận về một giả thuyết như vậy? Bạn chỉ có thể nêu kích thước hiệu ứng đo được và sau đó thảo luận về các phân nhánh trường hợp tốt nhất / xấu nhất là gì. Đây là cách nó thường được thực hiện trong vật lý, ví dụ như khi đo sự khác biệt giữa khối lượng và điện tích giữa proton và phản proton . Các tác giả có thể đã chọn đưa ra một giả thuyết khống (có thể, để làm theo ví dụ của bạn, rằng sự khác biệt tuyệt đối lớn hơn một số ) và tiến hành kiểm tra nó, nhưng có rất ít giá trị gia tăng trong một cuộc thảo luận như vậy. θ±δθΔ
Martin JH

3

Điều "đáng kể" là các nhà thống kê , không chỉ các nhà khoa học, đang trỗi dậy và phản đối việc sử dụng lỏng lẻo các giá trị "ý nghĩa" vàVấn đề gần đây nhất của The American Statistician được dành hoàn toàn cho vấn đề này. Đặc biệt là xem biên tập chính của Wasserman, Schirm và Lazar. P


Cảm ơn vi đương link! Đó là một cái mở mắt; Tôi đã không nhận ra có rất nhiều suy nghĩ và tranh luận về điều này.
uhoh

2

Có một thực tế là vì nhiều lý do, giá trị p thực sự đã trở thành một vấn đề.

Tuy nhiên, mặc dù có điểm yếu, nhưng chúng có những ưu điểm quan trọng như đơn giản và lý thuyết trực quan. Do đó, mặc dù về tổng thể tôi đồng ý với Nhận xét trong Tự nhiên , tôi nghĩ rằng thay vì bỏ hoàn toàn ý nghĩa thống kê , một giải pháp cân bằng hơn là cần thiết. Dưới đây là một vài lựa chọn:

1. "Thay đổi ngưỡng giá trị P mặc định cho ý nghĩa thống kê từ 0,05 đến 0,005 đối với yêu cầu khám phá mới". Theo quan điểm của tôi, Benjamin et al đã giải quyết rất tốt các lập luận thuyết phục nhất chống lại việc áp dụng tiêu chuẩn bằng chứng cao hơn.

2. Áp dụng các giá trị p thế hệ thứ hai . Đây dường như là một giải pháp hợp lý cho hầu hết các vấn đề ảnh hưởng đến giá trị p cổ điển . Như Blume et al nói ở đây , giá trị p thế hệ thứ hai có thể giúp "cải thiện tính nghiêm ngặt, độ tái lập và tính minh bạch trong các phân tích thống kê."

3. Xác định lại giá trị p là "thước đo định lượng của sự chắc chắn - chỉ số tin cậy của người Hồi giáo - rằng một mối quan hệ được quan sát, hoặc yêu cầu, là đúng." Điều này có thể giúp thay đổi mục tiêu phân tích từ việc đạt được ý nghĩa để ước tính một cách thích hợp sự tự tin này.

Điều quan trọng là, "kết quả không đạt đến ngưỡng có ý nghĩa thống kê hoặc độ tin cậy của Google (dù đó là gì) vẫn có thể là công bố quan trọng và đáng khen trên các tạp chí hàng đầu nếu họ giải quyết các câu hỏi nghiên cứu quan trọng bằng các phương pháp nghiêm ngặt."

Tôi nghĩ rằng điều đó có thể giúp giảm bớt nỗi ám ảnh về giá trị p bởi các tạp chí hàng đầu, đằng sau việc lạm dụng giá trị p .


Cảm ơn câu trả lời của bạn, điều này rất hữu ích. Tôi sẽ dành thời gian đọc Blume et al. về giá trị p thế hệ thứ hai , nó dường như khá dễ đọc.
uhoh

1
@uhoh, rất vui vì câu trả lời của tôi hữu ích cho câu hỏi của bạn.
Krantz

1

Một điều chưa được đề cập là lỗi hoặc tầm quan trọng là ước tính thống kê, không phải là các phép đo vật lý thực tế: Chúng phụ thuộc rất nhiều vào dữ liệu bạn có sẵn và cách bạn xử lý nó. Bạn chỉ có thể cung cấp giá trị chính xác của lỗi và ý nghĩa nếu bạn đã đo lường mọi sự kiện có thể. Điều này thường không phải là trường hợp, xa nó!

Do đó, mọi ước tính về sai số hoặc mức độ quan trọng, trong trường hợp này, bất kỳ giá trị P đã cho nào, theo định nghĩa đều không chính xác và không đáng tin cậy để mô tả nghiên cứu cơ bản - hãy để một mình hiện tượng! - chính xác. Trên thực tế, không nên tin tưởng để truyền đạt bất cứ điều gì về kết quả mà KHÔNG có kiến ​​thức về những gì được trình bày, cách ước tính lỗi và những gì đã được thực hiện để kiểm soát chất lượng dữ liệu. Ví dụ, một cách để giảm lỗi ước tính là loại bỏ các ngoại lệ. Nếu việc xóa này cũng được thực hiện theo thống kê, thì làm thế nào bạn thực sự có thể biết các ngoại lệ là lỗi thực sự thay vì các phép đo thực không có khả năng nên được đưa vào lỗi? Làm thế nào các lỗi giảm có thể cải thiện tầm quan trọng của kết quả? Điều gì về các phép đo sai lầm gần các ước tính? Họ cải thiện lỗi và có thể ảnh hưởng đến ý nghĩa thống kê nhưng có thể dẫn đến kết luận sai!

Đối với vấn đề đó, tôi thực hiện mô hình vật lý và đã tự tạo mô hình trong đó lỗi 3-sigma là hoàn toàn phi vật lý. Đó là, theo thống kê có khoảng một sự kiện trong một nghìn (cũng ... thường xuyên hơn thế, nhưng tôi lạc đề) sẽ dẫn đến giá trị hoàn toàn vô lý. Mức độ sai số 3 khoảng trong lĩnh vực của tôi gần tương đương với ước tính tốt nhất có thể là 1 cm hóa ra là một mét mỗi giờ. Tuy nhiên, đây thực sự là một kết quả được chấp nhận khi cung cấp khoảng +/- thống kê được tính từ dữ liệu vật lý, thực nghiệm trong lĩnh vực của tôi. Chắc chắn, độ hẹp của khoảng không chắc chắn được tôn trọng, nhưng thường thì giá trị của ước tính dự đoán tốt nhất là kết quả hữu ích hơn ngay cả khi khoảng sai số danh nghĩa sẽ lớn hơn.

Một ghi chú bên lề, tôi đã từng chịu trách nhiệm cá nhân cho một trong những người trong một ngàn ngoại lệ. Tôi đang trong quá trình hiệu chỉnh một thiết bị khi một sự kiện xảy ra mà chúng tôi phải đo. Than ôi, điểm dữ liệu đó sẽ chính xác là một trong số 100 ngoại lệ đó, do đó, theo một nghĩa nào đó, chúng xảy ra và được bao gồm trong lỗi mô hình hóa!


"Bạn chỉ có thể cung cấp biện pháp chính xác, nếu bạn đã đo lường mọi sự kiện có thể." Hừm. Vì vậy, độ chính xác là vô vọng? Và cũng không liên quan? Vui lòng mở rộng về sự khác biệt giữa độ chính xác và độ lệch. Là ước tính không chính xác thiên vị hoặc không thiên vị? Nếu chúng không thiên vị, thì chúng có hữu ích chút không? "Ví dụ, một cách để giảm lỗi là xóa các ngoại lệ." Hừm. Điều đó sẽ làm giảm phương sai mẫu, nhưng "lỗi"? "... Thường thì giá trị của ước tính dự đoán tốt nhất là kết quả hữu ích hơn ngay cả khi khoảng sai số danh nghĩa sẽ lớn hơn" Tôi không phủ nhận rằng ưu tiên tốt hơn là thử nghiệm xấu.
Peter Leopold

Sửa đổi văn bản một chút dựa trên nhận xét của bạn. Điều tôi muốn nói là số đo thống kê về lỗi luôn là ước tính trừ khi bạn có tất cả các bài kiểm tra riêng lẻ có thể, có thể nói là có sẵn. Điều này hiếm khi xảy ra, ngoại trừ khi bỏ phiếu một số người (nb không phải là mẫu từ đám đông lớn hơn hoặc dân số nói chung).
Geenimetsuri

1
Tôi là một học viên sử dụng số liệu thống kê hơn là một nhà thống kê. Tôi nghĩ rằng một vấn đề cơ bản với giá trị p là nhiều người không quen thuộc với những gì họ nhầm lẫn chúng có ý nghĩa thực sự. Do đó, tôi đã được yêu cầu xác định độ dốc nào là quan trọng bằng cách sử dụng giá trị p bất kể độ dốc có lớn hay không. Một vấn đề tương tự là sử dụng chúng để xác định tác động tương đối của các biến (điều này rất quan trọng đối với tôi, nhưng điều này gây chú ý một cách đáng ngạc nhiên trong tài liệu hồi quy).
dùng54285
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.