Làm thế nào để giải thích khoảng tin cậy của sự khác biệt về phương tiện trong một thử nghiệm T mẫu?


21

SPSS cung cấp "khoảng tin cậy của chênh lệch trung bình". Tôi đã đọc ở một số nơi có nghĩa là "95 lần trong số 100, sự khác biệt trung bình mẫu của chúng tôi sẽ nằm giữa các giới hạn" Tôi thấy điều này không rõ ràng. Bất cứ ai cũng có thể đề xuất từ ​​ngữ rõ ràng hơn để giải thích "khoảng tin cậy của sự khác biệt về phương tiện"? Đầu ra này xuất hiện trong bối cảnh thử nghiệm một mẫu.


1
Sự lo lắng của bạn là gì?
mpiktas

1
Lưu ý rằng không có gì đặc biệt về tỷ lệ này: một CI cho ước tính bất cứ điều gì sẽ được diễn giải theo cách tương tự. (Tuy nhiên, các quy trình khác nhau có thể được sử dụng để xây dựng CI, tùy thuộc vào những gì được ước tính.) Do đó, câu hỏi này hoàn toàn giống với các câu hỏi trước đó yêu cầu giải thích về các TCTD.
whuber

Câu trả lời:


13

Đây không phải là một điều dễ dàng, ngay cả đối với các nhà thống kê đáng kính. Nhìn vào một nỗ lực gần đây của Nate Silver :

... Nếu tôi yêu cầu bạn cho tôi biết tần suất đi lại của bạn mất hơn 10 phút so với mức trung bình - điều gì đó đòi hỏi một số phiên bản của khoảng tin cậy - bạn sẽ phải suy nghĩ về điều đó một chút, ...

(từ blog FiveThentyEight trên New York Times, 29/9/10.) Đây không phải là khoảng tin cậy. Tùy thuộc vào cách bạn diễn giải nó, đó là khoảng dung sai hoặc khoảng dự đoán. (Mặt khác, không có vấn đề gì với cuộc thảo luận tuyệt vời về ước tính xác suất của ông Silver; đó là một bài đọc tốt.) Nhiều trang web khác (đặc biệt là các trang web tập trung đầu tư) tương tự nhầm lẫn giữa các khoảng tin cậy với các loại khoảng thời gian khác.

Thời báo New York đã nỗ lực làm rõ ý nghĩa của kết quả thống kê mà nó tạo ra và báo cáo. Bản in đẹp bên dưới nhiều cuộc thăm dò bao gồm một cái gì đó như thế này:

Về lý thuyết, trong 19 trường hợp trên 20, kết quả dựa trên các mẫu như vậy của tất cả người trưởng thành sẽ khác nhau không quá ba điểm phần trăm theo bất kỳ hướng nào so với những gì có thể đạt được bằng cách tìm cách phỏng vấn tất cả người lớn ở Mỹ.

( Ví dụ , như thế nào Thăm dò ý kiến được tiến hành , 2011/05/02.)

Một chút dài dòng, có lẽ, nhưng rõ ràng và chính xác: tuyên bố này đặc trưng cho sự thay đổi của phân phối mẫu của kết quả thăm dò ý kiến. Đó là gần với ý tưởng về khoảng tin cậy, nhưng nó không hoàn toàn ở đó. Tuy nhiên, người ta có thể xem xét sử dụng từ ngữ như vậy thay cho khoảng tin cậy trong nhiều trường hợp.

Khi có quá nhiều sự nhầm lẫn tiềm ẩn trên internet, thật hữu ích khi chuyển sang các nguồn có thẩm quyền. Một trong những mục yêu thích của tôi là Văn bản thống kê thời gian của Freedman, Pisani, & Purves, Statistics. Bây giờ trong phiên bản thứ tư của nó, nó đã được sử dụng tại các trường đại học trong hơn 30 năm và đáng chú ý vì những giải thích rõ ràng, rõ ràng và tập trung vào các phương pháp "thường xuyên" cổ điển. Hãy xem những gì nó nói về việc diễn giải khoảng tin cậy:

Mức độ tin cậy 95% nói lên điều gì đó về quy trình lấy mẫu ...

[tại p. 384; tất cả các trích dẫn là từ phiên bản thứ ba (1998)]. Nó tiếp tục,

Nếu mẫu được đưa ra khác nhau, khoảng tin cậy sẽ khác. ... Trong khoảng 95% của tất cả các mẫu, khoảng ... bao gồm tỷ lệ phần trăm dân số, và đối với 5% còn lại thì không.

[p. 384]. Văn bản nói nhiều hơn về các khoảng tin cậy, nhưng điều này là đủ để giúp: cách tiếp cận của nó là chuyển trọng tâm thảo luận lên mẫu, đồng thời mang lại sự chặt chẽ và rõ ràng cho các tuyên bố. Do đó, chúng tôi có thể thử điều tương tự trong báo cáo của chúng tôi. Ví dụ: hãy áp dụng phương pháp này để mô tả khoảng tin cậy [34%, 40%] xung quanh chênh lệch tỷ lệ phần trăm được báo cáo trong một thử nghiệm giả định:

"Thử nghiệm này đã sử dụng một mẫu đối tượng được chọn ngẫu nhiên và lựa chọn điều khiển ngẫu nhiên. Chúng tôi báo cáo khoảng tin cậy từ 34% đến 40% cho sự khác biệt. Điều này định lượng độ tin cậy của thử nghiệm: nếu lựa chọn đối tượng và điều khiển khác nhau , khoảng tin cậy này sẽ thay đổi để phản ánh kết quả cho các đối tượng và đối chứng được chọn. Trong 95% trường hợp như vậy, khoảng tin cậy sẽ bao gồm sự khác biệt thực sự (giữa tất cả các đối tượng và tất cả các điều khiển) và trong 5% trường hợp khác thì không . Do đó rất có thể - nhưng không chắc chắn - đó đây khoảng tin cậy bao gồm sự khác biệt thực sự: đó là, chúng tôi tin rằng sự khác biệt thật sự là giữa 34% và 40% ".

(Đây là văn bản của tôi, chắc chắn có thể được cải thiện: Tôi mời các biên tập viên làm việc với nó.)

Một tuyên bố dài như thế này là hơi khó sử dụng. Trong các báo cáo thực tế hầu hết bối cảnh - lấy mẫu ngẫu nhiên, đối tượng và kiểm soát, khả năng thay đổi - sẽ được thiết lập, làm cho một nửa tuyên bố trước đó là không cần thiết. Khi báo cáo xác định rằng có sự biến thiên lấy mẫu và thể hiện một mô hình xác suất cho kết quả mẫu, thường không khó để giải thích một khoảng tin cậy (hoặc khoảng ngẫu nhiên khác) rõ ràng và chặt chẽ như đối tượng cần.


Cảm ơn Whuber, tôi hiểu khoảng tin cậy cho một ý nghĩa khá tốt. Đó là CI cho sự khác biệt về phương tiện (giữa một mẫu và pop) nơi tôi trở nên bối rối.
Anne

@Anne Bạn đang đề cập đến cái gì? Cả câu hỏi của bạn và bất kỳ câu trả lời nào đều đề cập đến sự khác biệt giữa trung bình mẫu và trung bình dân số, theo như tôi có thể nói. Câu hỏi của bạn dường như đề cập đến sự khác biệt giữa hai phương tiện mẫu (có lẽ giữa giá trị trung bình của một nhóm đối tượng thử nghiệm và một nhóm các điều khiển).
whuber

Ví dụ tôi đang nghĩ đến là nơi bạn đang tìm kiếm sự khác biệt giữa một mẫu và ý nghĩa dân số. Trong trường hợp này, chính xác thì CI giữa mẫu và pop có nghĩa là gì. Chúng tôi đã sử dụng giá trị trung bình mẫu để ước tính độ lệch chuẩn pop và do đó chúng tôi ước tính CI xung quanh ước tính trung bình. Sự khác biệt của phương tiện không phải là sự khác biệt giữa ý nghĩa pop mà chúng tôi đã cung cấp và ý nghĩa mẫu. Vậy đo la cai gi?
Anne

1
@Anne Có phải "trung bình dân số" là trung bình giả định, không xác định của dân số được lấy mẫu hay đó là giá trị trung bình đo được của một dân số khác đã được lấy mẫu triệt để? Ngoài ra, theo nghĩa nào bạn đã sử dụng "ý nghĩa mẫu" để ước tính độ lệch chuẩn dân số ? Có lẽ đó là một lỗi đánh máy?
whuber

2
@ xin cảm ơn. Dòng của bạn "Các TCTD được tính toán cho 95% tất cả các mẫu (nghĩa là 95% của tất cả các bản sao có thể) sẽ bao gồm sự khác biệt thực sự đó." đối với tôi rõ ràng hơn "95 lần trong số 100, sự khác biệt trung bình mẫu của chúng tôi sẽ nằm giữa các giới hạn" và lời giải thích của bạn có ý nghĩa logic.
Anne

5

Từ quan điểm kỹ thuật sư phạm, cá nhân tôi không nghĩ rằng có một "từ ngữ rõ ràng" về việc giải thích các khoảng tin cậy.

Tôi sẽ giải thích một khoảng tin cậy là: có xác suất 95% rằng khoảng tin cậy 95% bao gồm sự khác biệt trung bình thực

NN

N1

Nhưng lưu ý rằng đây là tất cả trong triết lý. Tôi nghĩ rằng khoảng thời gian tự tin là mơ hồ tốt nhất trong lời giải thích. Họ cho kết quả tốt khi sử dụng đúng cách.


Bắt đầu một câu mới sau "N khoảng tin cậy khác nhau." không trôi chảy với "bạn có thể diễn giải thêm điều này như nói ...". Tôi đề nghị sửa đổi đoạn thứ ba.
Theta30

2
Đoạn thứ ba của bạn tốt hơn nhiều so với đoạn thứ hai. Có điều kiện trên dữ liệu được quan sát, khoảng tin cậy có chứa giá trị tham số thực hoặc không.
Đức hồng y

@probabilityislogic: Vì câu trả lời này đã được chấp nhận, vui lòng xem xét chỉnh sửa đoạn thứ hai của bạn. Ngoài ra, bạn có thể vui lòng làm rõ ý của bạn trong đoạn thứ hai đến đoạn cuối không? Khi nó đọc, tôi không chắc chắn bạn đang đưa ra lập luận gì.
Đức hồng y

nếu chúng ta diễn giải các khoảng tin cậy theo nghĩa "lặp lại" của thí nghiệm thì chúng ta phải bỏ qua các thí nghiệm trước đó trong các lần lặp lại này. Quan điểm của tôi là: tại sao sự thiếu hiểu biết của các thử nghiệm trước đó trong các "lần lặp lại" về khoảng tin cậy này lại tốt cho các tập dữ liệu mà chúng ta không quan sát được, nhưng chúng ta phải gộp dữ liệu lại với nhau cho dữ liệu mà chúng ta đã quan sát? Nó sẽ không có ý nghĩa nhiều như vậy (từ những gì tôi hiểu về cách giải thích CI) để tạo ra càng nhiều TCTD càng tốt với dữ liệu bạn có?
xác suất

1
Có cả một lý thuyết, phần lớn song song với lý thuyết quyết định tối ưu, trên các tập hợp độ tin cậy chính xác nhất. Có lẽ đó là mảnh ghép còn thiếu cho bạn. (?)
Đức hồng y

3

Câu trả lời sơ bộ cho câu hỏi là khoảng tin cậy 95% cho phép bạn tự tin 95% rằng giá trị tham số thực nằm trong khoảng. Tuy nhiên, câu trả lời thô thiển đó là không đầy đủ và không chính xác.

Sự không hoàn hảo nằm ở chỗ không rõ ràng rằng "95% tự tin" có nghĩa là bất cứ điều gì cụ thể, hoặc nếu có, thì ý nghĩa cụ thể đó sẽ không được thống nhất bởi một mẫu thống kê nhỏ. Ý nghĩa của sự tự tin phụ thuộc vào phương pháp nào đã được sử dụng để đạt được khoảng thời gian và mô hình suy luận nào đang được sử dụng (mà tôi hy vọng sẽ trở nên rõ ràng hơn dưới đây).

Sự không chính xác nằm ở chỗ nhiều khoảng tin cậy không được thiết kế để cho bạn biết bất cứ điều gì về vị trí của giá trị tham số thực cho trường hợp thử nghiệm cụ thể mang lại khoảng tin cậy! Điều đó sẽ gây ngạc nhiên cho nhiều người, nhưng nó xuất phát trực tiếp từ triết lý Neyman-Pearson được nêu rõ trong trích dẫn này từ bài báo năm 1933 của họ "Về vấn đề kiểm tra hiệu quả nhất các giả thuyết thống kê":

Chúng tôi có khuynh hướng nghĩ rằng theo như một giả thuyết cụ thể có liên quan, thì không có thử nghiệm nào dựa trên lý thuyết xác suất có thể tự cung cấp bất kỳ bằng chứng có giá trị nào về sự thật hoặc sai của giả thuyết đó.

Nhưng chúng ta có thể xem xét mục đích của các bài kiểm tra từ một quan điểm khác. Không hy vọng biết mỗi giả thuyết riêng biệt là đúng hay sai, chúng ta có thể tìm kiếm các quy tắc để điều chỉnh hành vi của mình đối với chúng, theo đó chúng ta đảm bảo rằng, về lâu dài kinh nghiệm, chúng ta sẽ không quá thường xuyên sai.

Do đó, các khoảng thời gian dựa trên 'nghịch đảo' của các thử nghiệm giả thuyết NP sẽ thừa hưởng từ thử nghiệm đó bản chất của việc biết các thuộc tính lỗi dài hạn mà không cho phép suy luận về các thuộc tính của thử nghiệm mang lại chúng! Sự hiểu biết của tôi là điều này bảo vệ chống lại suy luận quy nạp, mà Neyman rõ ràng được coi là một sự gớm ghiếc.

Neyman dứt khoát đưa ra yêu sách về 'khoảng tin cậy' và nguồn gốc của lý thuyết về khoảng tin cậy trong bài luận năm 1941 Biometrika của ông và lý thuyết về khoảng tin cậy. Theo một nghĩa nào đó, bất cứ điều gì là một khoảng tin cậy đúng theo quy tắc của anh ta và do đó, ý nghĩa của một khoảng riêng lẻ chỉ có thể được biểu thị theo tỷ lệ dài hạn mà tại đó các khoảng được tính theo phương pháp đó chứa (bao gồm) đúng Giá trị tham số.

Bây giờ chúng ta cần rẽ nhánh thảo luận. Một chuỗi theo khái niệm 'phạm vi bảo hiểm', và chuỗi còn lại tuân theo các khoảng phi Neyman giống như các khoảng tin cậy. Tôi sẽ trì hoãn trước đây để tôi có thể hoàn thành bài đăng này trước khi nó trở nên quá dài.

Có nhiều cách tiếp cận khác nhau tạo ra các khoảng tin cậy có thể được gọi là khoảng tin cậy không phải của người Neyman. Đầu tiên trong số này là khoảng thời gian lễ hội của Fisher. (Từ 'fiducial' có thể khiến nhiều người sợ hãi và gợi ra những nụ cười nhạo báng từ những người khác, nhưng tôi sẽ bỏ qua điều đó ...) Đối với một số loại dữ liệu (ví dụ như bình thường với phương sai dân số không xác định), các khoảng được tính theo phương pháp của Fisher giống hệt với các khoảng đó sẽ được tính theo phương pháp của Neyman. Tuy nhiên, họ mời những diễn giải trái ngược nhau. Các khoảng Neymanian chỉ phản ánh các thuộc tính bao phủ dài hạn của phương pháp, trong khi các khoảng của Fisher nhằm hỗ trợ suy luận quy nạp liên quan đến các giá trị tham số thực cho thí nghiệm cụ thể được thực hiện.

Việc một tập hợp giới hạn có thể đến từ các phương pháp dựa trên một trong hai mô hình khác biệt về mặt triết học dẫn đến một tình huống thực sự khó hiểu - kết quả có thể được diễn giải theo hai cách trái ngược nhau. Từ đối số fiducial, có khả năng 95% rằng một khoảng thời gian cụ thể 95% sẽ chứa giá trị tham số thực. Từ phương pháp của Neyman, chúng ta chỉ biết rằng 95% các khoảng được tính theo cách đó sẽ chứa giá trị tham số thực và phải nói những điều khó hiểu về xác suất của khoảng chứa giá trị tham số thực không xác định nhưng là 1 hoặc 0.

Ở một mức độ lớn, cách tiếp cận của Neyman đã ảnh hưởng đến Fisher. Điều đó là không may nhất, theo ý kiến ​​của tôi, bởi vì nó không dẫn đến một sự giải thích tự nhiên về các khoảng. (Đọc lại trích dẫn ở trên từ Neyman và Pearson và xem liệu nó có phù hợp với cách giải thích tự nhiên của bạn về kết quả thử nghiệm hay không. Rất có thể là không.)

Nếu một khoảng có thể được giải thích chính xác về tỷ lệ lỗi toàn cầu nhưng cũng chính xác theo thuật ngữ suy luận cục bộ, tôi không thấy một lý do chính đáng để ngăn chặn người dùng khoảng cách từ cách giải thích tự nhiên hơn được cung cấp sau. Do đó, gợi ý của tôi là cách giải thích hợp lý về khoảng tin cậy là CẢ HAI:

  • Neymanian: Khoảng 95% này được xây dựng bằng phương pháp mang lại các khoảng bao phủ giá trị tham số thực trong 95% các trường hợp trong thời gian dài (... về kinh nghiệm thống kê của chúng tôi).

  • Ngư dân: Khoảng 95% này có xác suất 95% bao gồm giá trị tham số thực.

(Bayesian và các phương pháp khả năng cũng sẽ mang lại các khoảng với các thuộc tính thường xuyên mong muốn. Các khoảng như vậy mời các cách hiểu hơi khác nhau mà cả hai có lẽ sẽ cảm thấy tự nhiên hơn Neymanian.)


@Micheal - nơi mà chúng sẽ khác nhau là một khoảng thời gian giả phải dựa trên một thống kê đầy đủ và điều kiện trên tất cả các đại lượng phụ trợ. Khoảng tin cậy của Neymans không yêu cầu thuộc tính này và do đó, tùy thuộc vào "khoảng tin cậy 95%" có phạm vi bảo hiểm khác nhau cho các phân nhóm mẫu cụ thể.
xác suất

@probability - Bạn có thể mở rộng về điều đó? Bạn có nghĩa là có những trường hợp mà khoảng tin cậy Neymanian 95% là khoảng tin cậy nhưng nó không phải là khoảng 95%? Những trường hợp đó sẽ là gì? Khoảng cách Ngư dân sẽ có cùng giới hạn trong những trường hợp đó?
Michael Lew

Bạn có thể chỉ ra các trường hợp mà bạn có thể nói từ mẫu, rằng khoảng tin cậy "95%" không chứa giá trị thực. ví dụ 5 và ví dụ 6 trong bài báo của Jaynes đưa ra hai trường hợp không sử dụng đủ số liệu thống kê trong các TCTD sẽ đưa ra phạm vi bảo hiểm dài hạn, nhưng phạm vi bảo hiểm sẽ thay đổi theo các loại mẫu nhất định. Nó tương tự như có hai biến có cùng mức trung bình (độ bao phủ dài hạn) nhưng phương sai khác nhau (phạm vi bảo hiểm trong trường hợp cụ thể)
xác suất

2

Ý nghĩa của khoảng tin cậy là: nếu bạn lặp lại thí nghiệm của mình theo cùng một cách chính xác (nghĩa là: cùng số lượng quan sát, rút ​​ra từ cùng một quần thể, v.v.) và nếu các giả định của bạn là chính xác, và bạn sẽ tính toán khoảng thời gian đó một lần nữa trong mỗi lần lặp lại, sau đó khoảng tin cậy này sẽ chứa tỷ lệ lưu hành thực sự trong 95% số lần lặp lại (trung bình).

Vì vậy, bạn có thể nói rằng bạn chắc chắn 95% (nếu giả định của bạn là chính xác, v.v.) rằng bạn đã xây dựng một khoảng có chứa tỷ lệ lưu hành thực sự.

Điều này thường được nêu là: với độ tin cậy 95%, từ 4,5 đến 8,3% trẻ em của những bà mẹ hút thuốc trong suốt thai kỳ trở nên béo phì.

Lưu ý rằng bản thân điều này thường không thú vị: bạn có thể muốn so sánh điều này với tỷ lệ lưu hành ở trẻ em của những bà mẹ không hút thuốc (tỷ lệ chênh lệch, rủi ro tương đối, v.v.)


(Câu trả lời này, được gửi đến đây sau khi sáp nhập hai luồng, đang trả lời một câu hỏi trùng lặp được đóng khung theo thuật ngữ của một tỷ lệ.)
whuber

0

Nếu sự khác biệt trung bình thực sự nằm ngoài khoảng này, thì chỉ có 5% khả năng sự khác biệt trung bình so với thử nghiệm của chúng tôi sẽ khác xa với sự khác biệt trung bình thực sự.


Bạn có ý nghĩa gì bởi "điều này xa"? Đây có phải là giới hạn trên của CI ở xa hay trung bình quan sát được không?
xác suất

Khoảng cách giữa giá trị trung bình thực và giá trị trung bình quan sát được là ý của tôi bởi "điều này rất xa". Tôi sẽ thay đổi nó thành "rất xa"; Tôi nghĩ rằng đó là một chút rõ ràng hơn.
Thomas Levine

-2

Giải thích của tôi: Nếu bạn tiến hành thí nghiệm N lần (trong đó N có xu hướng vô cùng) thì trong số các thí nghiệm lớn này, 95% thí nghiệm sẽ có khoảng tin cậy nằm trong giới hạn 95% này. Rõ ràng hơn, giả sử các giới hạn đó là "a" và "b" sau đó 95 trên 100 lần sự khác biệt trung bình mẫu của bạn sẽ nằm giữa "a" và "b". Tôi giả sử rằng bạn hiểu rằng các thử nghiệm khác nhau có thể có các mẫu khác nhau để che ra khỏi toàn dân


@ Ayush. cảm ơn. Đó là hữu ích. Xin lỗi tôi không hoàn toàn làm theo câu cuối cùng của bạn.
Anne

@anne - Ok. Ý tôi là nếu bạn muốn kiểm tra giá trị trung bình giữa hai mẫu và giả sử mỗi mẫu có 1000 người, bạn có thể xác định các mẫu vô hạn trong số đó (giả sử có 40 người từ mỗi mẫu) .. Tôi đã viết điều này để cho biết tại sao các thí nghiệm khác nhau khác nhau..Các thí nghiệm mà chúng tôi đang quan sát khoảng tin cậy.
ayush biyani

2
@ayush - đây không phải là cách giải thích chính xác trong câu cuối cùng thứ hai của bạn. Hoặc ít nhất bạn nên thêm các mục con vào "a" và "b", điều này cho thấy rõ rằng đó là những đại lượng này thay đổi trong hơn 100 lần. Ký hiệu hiện tại của bạn làm cho có vẻ như "a" và "b" là số lượng cố định.
xác suất

@probabilityislogic - đồng ý .. các đăng ký là cần thiết.
ayush biyani

1
[a,b]

-2

"95 lần trong số 100, giá trị của bạn sẽ nằm trong một độ lệch chuẩn của giá trị trung bình"


4
Chào mừng đến với trang web, @beginnerstat. Tôi tự hỏi nếu bạn có ý định nói, " hai độ lệch chuẩn của trung bình"? Ngoài ra, tôi không chắc chắn tôi thấy cách diễn đạt này cải thiện những gì OP đã đọc ở nơi khác. Bạn có muốn xây dựng một chút?
gung - Phục hồi Monica

1
Có để nhận xét của @ gung: Tôi đặc biệt quan tâm đến việc hiểu ý nghĩa trong đó "nghĩa là" và "SD" được sử dụng ở đây. Đây có phải là đề cập đến các tham số cơ bản hoặc ước tính mẫu ? Họ có đề cập đến việc phân phối một biến ngẫu nhiên cơ bản hoặc phân phối lấy mẫu của giá trị trung bình của iid biến thiên từ phân phối như vậy không?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.