Tại sao các tuyên bố này không tuân theo logic từ CI 95% cho trung bình?


26

Tôi đã đọc bài báo năm 2014 của Hoekstra et al về "Giải thích sai về các khoảng tin cậy", mà tôi đã tải xuống từ trang web của Wagenmakers .

Trên trang áp chót hình ảnh sau xuất hiện.

Đố

Theo các tác giả, Sai là câu trả lời đúng cho tất cả các tuyên bố này. Tôi không chắc chắn tại sao các tuyên bố là sai, và theo như tôi có thể nói với phần còn lại của bài báo không cố gắng giải thích điều này.

Tôi tin rằng 1-2 và 4 không đúng bởi vì họ khẳng định điều gì đó về giá trị có thể có của giá trị trung bình thực, khi giá trị trung bình thực có giá trị xác định chưa được biết. Đây có phải là một sự phân biệt thuyết phục?

Về 3, tôi hiểu rằng người ta không có ý khẳng định về khả năng giả thuyết khống là không chính xác, mặc dù tôi không chắc về lý do tại sao.

Tương tự 6 không thể đúng bởi vì nó ngụ ý rằng ý nghĩa thực sự đang thay đổi từ thử nghiệm này sang thử nghiệm khác.

Người mà tôi thực sự không hiểu chút nào là 5. Tại sao điều đó sai? Nếu tôi có một quy trình 95% thời gian tạo ra các TCTD có nghĩa trung bình thực sự, tại sao tôi không nên nói rằng tôi có độ tin cậy 95%, giá trị dân số nằm trong khoảng từ 0,1 đến 0,4? Có phải vì chúng tôi có thể có một số thông tin đặc biệt về mẫu mà chúng tôi vừa lấy sẽ khiến chúng tôi nghĩ rằng đó có thể là một trong 5% không chứa ý nghĩa thực sự? Ví dụ, 0,13 được bao gồm trong khoảng tin cậy và vì một số lý do, 0,13 không được coi là giá trị hợp lý trong một số bối cảnh nghiên cứu cụ thể, ví dụ vì giá trị đó sẽ mâu thuẫn với lý thuyết trước đó.

Sự tự tin có nghĩa là gì trong bối cảnh này, dù sao?


Câu trả lời:


11

Ý nghĩa của câu hỏi (5) phụ thuộc vào một số cách giải thích không được tiết lộ về "sự tự tin". Tôi đã tìm kiếm bài báo một cách cẩn thận và thấy không có nỗ lực để xác định "sự tự tin" hoặc ý nghĩa của nó trong bối cảnh này. Bài giải thích của bài báo về câu trả lời của nó cho câu hỏi (5) là

"... [nó] đề cập đến ranh giới của CI trong khi ... một CI chỉ có thể được sử dụng để đánh giá thủ tục và không phải là một khoảng thời gian cụ thể."

Điều này là cả suy đoán và gây hiểu lầm. Đầu tiên, nếu bạn không thể đánh giá kết quả của thủ tục, thì thủ tục ở đâu là tốt? Thứ hai, tuyên bố trong câu hỏi không phải là về thủ tục, mà là về "sự tự tin" của người đọc về kết quả của nó.

Các tác giả tự bảo vệ mình:

"Trước khi tiếp tục, điều quan trọng là phải nhớ lại định nghĩa chính xác của CI. CI là một khoảng số được xây dựng xung quanh ước tính của một tham số. Tuy nhiên, một khoảng như vậy không trực tiếp chỉ ra một thuộc tính của tham số; thay vào đó, nó chỉ ra một đặc tính của thủ tục, như là điển hình cho kỹ thuật thường xuyên. "

Sự thiên vị của họ nổi lên trong cụm từ cuối cùng: "kỹ thuật thường xuyên" (được viết, có lẽ, với một sự chế nhạo ngầm). Mặc dù đặc tính này là chính xác, nhưng nó không hoàn chỉnh. Không nhận thấy rằng khoảng tin cậy cũng là một đặc tính của các phương pháp thí nghiệm (cách lấy mẫu và đo) và quan trọng hơn là bản chất của chính nó. Đó là lý do duy nhất tại sao bất cứ ai sẽ quan tâm đến giá trị của nó.

Gần đây tôi rất vui khi đọc Thống kê Thông tư về Sinh học của Edward Batschelet (Nhà xuất bản Học thuật, 1981). Batschelet viết rõ ràng và đến mức, theo một phong cách hướng vào nhà khoa học làm việc. Đây là những gì anh ấy nói về khoảng tin cậy:

" Ước tính một tham số không có dấu hiệu sai lệch gây ra bởi biến động cơ hội có rất ít giá trị khoa học. ...

"Trong khi tham số được ước tính là một số cố định, giới hạn tin cậy được xác định bởi mẫu. Chúng là số liệu thống kê và do đó, phụ thuộc vào biến động cơ hội. Các mẫu khác nhau được rút ra từ cùng một quần thể dẫn đến các khoảng tin cậy khác nhau."

[Sự nhấn mạnh là trong bản gốc, tại trang 84-85.]

Lưu ý sự khác biệt về sự nhấn mạnh: trong khi bài báo đang tập trung vào quy trình, Batschelet tập trung vào mẫu và cụ thể là những gì nó có thể tiết lộ về thông số và mức độ thông tin có thể bị ảnh hưởng bởi "biến động cơ hội". Tôi thấy cách tiếp cận khoa học, thực tế này không mang tính xây dựng, chiếu sáng, và - cuối cùng - hữu ích.

Do đó, một đặc tính đầy đủ hơn về các khoảng tin cậy so với được cung cấp bởi bài báo sẽ phải tiến hành một cái gì đó như thế này:

CI là một khoảng số được xây dựng xung quanh ước tính của một tham số. Bất cứ ai đồng ý với các giả định bên dưới việc xây dựng CI là hợp lý khi nói rằng họ tự tin rằng tham số nằm trong khoảng: đây là ý nghĩa của "tự tin". Ý nghĩa này rộng rãi phù hợp với ý nghĩa phi kỹ thuật thông thường của niềm tin bởi vì trong nhiều lần lặp lại thí nghiệm (dù chúng có thực sự diễn ra hay không), mặc dù nó sẽ thay đổi, được dự kiến ​​sẽ chứa thông số hầu hết thời gian.

Trong ý nghĩa đầy đủ hơn, thông thường hơn và mang tính xây dựng hơn về "sự tự tin", câu trả lời cho câu hỏi (5) là đúng.


2
Đáng chú ý là cách tiếp cận của Batschelet dường như loại trừ một số loại khoảng tin cậy nhất định khiến độc giả suy nghĩ tạm dừng, chẳng hạn như các TCTD có thể trống. Một CI như vậy sẽ hiếm khi nắm bắt được ý tưởng về "dấu hiệu sai lệch gây ra bởi biến động cơ hội". Điều này gợi ý rằng có lẽ định nghĩa chuẩn về khoảng tin cậy không hoàn thành được những gì được dự định. Bất kể, trong trường hợp không có bất kỳ dấu hiệu rõ ràng nào về "độ tin cậy" nghĩa là gì trong câu hỏi (5), chúng tôi phải giảm giá cho bất kỳ kết luận nào được đưa ra bởi các tác giả dựa trên câu trả lời mà họ nhận được cho câu hỏi đó.
whuber

Tôi sẽ không đồng ý về 5 là chính xác theo định nghĩa tinh tế của bạn về khoảng tin cậy. CI phải dựa trên một thống kê đầy đủ - nếu không bạn có thể tạo các TCTD có phân lớp các trường hợp "xấu" và "tốt", có thể nhận ra từ mẫu bạn có, sao cho độ bao phủ trong các lớp đó quá thấp hoặc quá cao. Ví dụ cơ bản nhất là một mẫu iid có kích thước 2 từ một . Giá trị trung bình mẫu không đủ cho để phạm vi bảo hiểm CI của bạn thay đổi tùy thuộc vào mẫu cụ thể bạn nhận được. μytôi~cmộtbạnchy(μ,1)μ
xác suất

... tiếp tục ... vì vậy mặc dù đã đạt được phạm vi bảo hiểm trung bình dài hạn, nhưng phạm vi bảo hiểm trong một loại mẫu cụ thể sẽ không.
xác suất

10

Câu hỏi 1-2, 4: trong phân tích thường xuyên, giá trị trung bình thực không phải là biến ngẫu nhiên, do đó xác suất không được xác định, trong khi trong phân tích Bayes, xác suất sẽ phụ thuộc vào trước.

Câu hỏi 3: Ví dụ, hãy xem xét một trường hợp mà chúng tôi biết chắc chắn Vẫn có thể có được những kết quả này, nhưng thật vô lý khi nói rằng giả thuyết null là "không thể" là đúng. Chúng tôi đã thu được dữ liệu không có khả năng xảy ra nếu giả thuyết null là đúng, nhưng điều này không ngụ ý rằng giả thuyết null không có khả năng là đúng.

Câu hỏi 5: Đây là một chút nghi vấn vì điều này phụ thuộc vào định nghĩa "chúng ta có thể tự tin p%". Nếu chúng ta định nghĩa câu lệnh có nghĩa là điều được suy ra từ khoảng tin cậy p%, thì câu lệnh là theo định nghĩa đúng. Lập luận ủng hộ Bayes điển hình nói rằng mọi người có xu hướng diễn giải những câu này bằng trực giác có nghĩa là "xác suất là p%", điều này sẽ sai (so sánh các câu trả lời với 1-2,4).

Câu 6: Giải thích của bạn "nó ngụ ý rằng ý nghĩa thực sự đang thay đổi từ thử nghiệm sang thử nghiệm" là hoàn toàn chính xác.

Bài báo gần đây đã được thảo luận trong blog của Andrew Gelman ( http://andrewgelman.com/2014/03/15/probolsatic-interpretations-confidence-inter đạn / ). Ví dụ, vấn đề liên quan đến việc giải thích tuyên bố trong câu hỏi 5 được thảo luận trong các ý kiến.


1
Vì vậy, nếu một người quay lại và thay thế mọi trường hợp của "giá trị trung bình thực" bằng "ước tính tốt nhất cho giá trị trung bình thực" thì các tuyên bố có trở thành chính xác không?
Tuyệt vời nhất

@Superbest Không. Nếu chúng tôi xem xét "ước tính tốt nhất được cung cấp dữ liệu này", đó là một hằng số đã biết (với điều kiện là tốt nhất được xác định rõ). Nếu chúng tôi xem xét "ước tính tốt nhất của một mẫu trong tương lai", chúng tôi không biết nó thay đổi như thế nào vì chúng tôi không biết ý nghĩa thực sự.
Juho Kokkala

Đây không chính xác là một phản bác cho nhận xét trên, nhưng tôi nên chỉ ra rằng thực sự "ước tính tốt nhất" ngụ ý một con số thực tế, chứ không phải là một phân phối. Với một CI, có lẽ người ta có thể nói về "sự phân phối nơi trung bình thực sự có thể nằm trong dữ liệu này".
Tuyệt vời nhất

1
@Super Đó chính xác là sự hiểu lầm của CI được đề cập trong bài báo. Trong đó, ý nghĩa thực sự là một con số ; nó không có phân phối. Xem hai lần truy cập đầu tiên trong tìm kiếm trang web về khoảng tin cậy để thảo luận thêm.
whuber

1
@super, "khoảng tin cậy" sẽ đến gần.
whuber

8

Không có bất kỳ định nghĩa chính thức nào về ý nghĩa của việc "tự tin 95%", có lý do gì để ghi nhãn số 5 đúng hay sai? Một giáo dân chắc chắn sẽ hiểu sai nó đồng nghĩa với xác suất 95% của giá trị trung bình trong khoảng đó: nhưng một số người sử dụng nó theo nghĩa là đã sử dụng một phương pháp tạo khoảng mà khoảng thời gian chứa trung bình đúng 95%, chính xác để tránh nói về phân phối xác suất của một tham số chưa biết; có vẻ như một phần mở rộng đủ tự nhiên của thuật ngữ.

Cấu trúc tương tự của tuyên bố trước (# 4) có thể đã khuyến khích người trả lời cố gắng phân biệt giữa "chúng tôi có thể tự tin 95%" & "có xác suất 95%" ngay cả khi họ không giải trí ý tưởng này trước đó. Tôi đã kỳ vọng sự khó khăn này sẽ dẫn đến việc số 5 có tỷ lệ cao nhất trong thỏa thuận mà nhìn vào tờ giấy, tôi phát hiện ra mình đã sai, nhưng nhận thấy rằng ít nhất 80% đọc bản câu hỏi trong phiên bản tiếng Hà Lan, có lẽ nên đặt câu hỏi về sự chu đáo của bản dịch tiếng Anh.


4

Dưới đây là định nghĩa về khoảng tin cậy, từ Từ điển thống kê của BS Everitt :

"Một phạm vi các giá trị, được tính toán từ các quan sát mẫu, được cho là, với một xác suất nhất định, có chứa giá trị tham số thực. Ví dụ, 95% CI ngụ ý rằng quá trình ước tính được lặp đi lặp lại nhiều lần, sau đó 95% trong số các khoảng được tính sẽ được dự kiến ​​chứa giá trị tham số thực. Lưu ý rằng mức xác suất đã nêu liên quan đến các thuộc tính của khoảng và không phải là chính tham số, không được coi là biến ngẫu nhiên "

Một quan niệm sai lầm rất phổ biến là nhầm lẫn giữa ý nghĩa của khoảng tin cậy với khoảng tin cậy , AKA "khoảng tin cậy Bayes", đưa ra các tuyên bố tương tự như trong các câu hỏi.

Tôi đã nghe nói rằng khoảng tin cậy thường tương tự như khoảng đáng tin cậy có nguồn gốc từ một thông tin không chính xác trước đó, nhưng điều đó đã được nói với tôi một cách ngẫu nhiên (mặc dù là một người tôi rất tôn trọng), và tôi không có chi tiết hoặc trích dẫn.


Jaynes 1976 khoảng tin cậy giấy so với khoảng Bayes. Đó là ít nhất một soure đáng tin cậy. Ngoài ra còn có các linh mục tham khảo của Berger và Bernardo. Nghiêm túc mà nói, bạn chưa bao giờ nghe nói về những điều này?
xác suất

2

Về trực giác cho sự sai lầm của Câu hỏi 5, tôi có được cuộc thảo luận sau đây về chủ đề này từ đây

Thật đúng khi nói rằng có 95% khả năng khoảng tin cậy mà bạn tính toán chứa trung bình dân số thực. Nó không hoàn toàn chính xác để nói rằng có 95% khả năng dân số có nghĩa là nằm trong khoảng.

Có gì khác biệt? Trung bình dân số có một giá trị. Bạn không biết nó là gì (trừ khi bạn đang thực hiện mô phỏng) nhưng nó có một giá trị. Nếu bạn lặp lại thử nghiệm, giá trị đó sẽ không thay đổi (và bạn vẫn không biết nó là gì). Do đó, không đúng khi hỏi về xác suất dân số có nghĩa là nằm trong một phạm vi nhất định. Ngược lại, khoảng tin cậy bạn tính toán phụ thuộc vào dữ liệu bạn đã thu thập. Nếu bạn lặp lại thí nghiệm, khoảng tin cậy của bạn gần như chắc chắn sẽ khác. Vì vậy, có thể hỏi về xác suất khoảng thời gian có nghĩa là dân số.

Bây giờ đến câu hỏi cụ thể của bạn về 5. Tại sao nó sai ...

  1. Có phải vì chúng tôi có thể có một số thông tin đặc biệt về mẫu mà chúng tôi vừa lấy sẽ khiến chúng tôi nghĩ rằng đó có thể là một trong 5% không chứa ý nghĩa thực sự? Không, đúng hơn, tôi nghĩ rằng đó là vì giá trị trung bình thực không phải là một biến ngẫu nhiên, nhưng khoảng tin cậy là một hàm của dữ liệu.
  2. 100(1-α)100(1-α)

Như một lưu ý phụ (được đề cập trong các câu trả lời khác cho câu hỏi này), một khoảng tin cậy , một khái niệm từ thống kê Bayes, dự đoán rằng giá trị thực của tham số có xác suất cụ thể nằm trong khoảng tin cậy cho dữ liệu thực sự thu được. Có lẽ bạn có thể có thêm nền tảng về điều này từ blog của Gelman.


5
"Khoảng chứa giá trị thực" và "giá trị thực nằm trong khoảng" có nghĩa chính xác là cùng một điều. Suy nghĩ về mặt trước đây hữu ích hơn nhưng thực sự không có ý nghĩa gì khi nói rằng cái này đúng và cái kia không chính xác.
David Richerby
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.