Câu trả lời sơ bộ cho câu hỏi là khoảng tin cậy 95% cho phép bạn tự tin 95% rằng giá trị tham số thực nằm trong khoảng. Tuy nhiên, câu trả lời thô thiển đó là không đầy đủ và không chính xác.
Sự không hoàn hảo nằm ở chỗ không rõ ràng rằng "95% tự tin" có nghĩa là bất cứ điều gì cụ thể, hoặc nếu có, thì ý nghĩa cụ thể đó sẽ không được thống nhất bởi một mẫu thống kê nhỏ. Ý nghĩa của sự tự tin phụ thuộc vào phương pháp nào đã được sử dụng để đạt được khoảng thời gian và mô hình suy luận nào đang được sử dụng (mà tôi hy vọng sẽ trở nên rõ ràng hơn dưới đây).
Sự không chính xác nằm ở chỗ nhiều khoảng tin cậy không được thiết kế để cho bạn biết bất cứ điều gì về vị trí của giá trị tham số thực cho trường hợp thử nghiệm cụ thể mang lại khoảng tin cậy! Điều đó sẽ gây ngạc nhiên cho nhiều người, nhưng nó xuất phát trực tiếp từ triết lý Neyman-Pearson được nêu rõ trong trích dẫn này từ bài báo năm 1933 của họ "Về vấn đề kiểm tra hiệu quả nhất các giả thuyết thống kê":
Chúng tôi có khuynh hướng nghĩ rằng theo như một giả thuyết cụ thể có liên quan, thì không có thử nghiệm nào dựa trên lý thuyết xác suất có thể tự cung cấp bất kỳ bằng chứng có giá trị nào về sự thật hoặc sai của giả thuyết đó.
Nhưng chúng ta có thể xem xét mục đích của các bài kiểm tra từ một quan điểm khác. Không hy vọng biết mỗi giả thuyết riêng biệt là đúng hay sai, chúng ta có thể tìm kiếm các quy tắc để điều chỉnh hành vi của mình đối với chúng, theo đó chúng ta đảm bảo rằng, về lâu dài kinh nghiệm, chúng ta sẽ không quá thường xuyên sai.
Do đó, các khoảng thời gian dựa trên 'nghịch đảo' của các thử nghiệm giả thuyết NP sẽ thừa hưởng từ thử nghiệm đó bản chất của việc biết các thuộc tính lỗi dài hạn mà không cho phép suy luận về các thuộc tính của thử nghiệm mang lại chúng! Sự hiểu biết của tôi là điều này bảo vệ chống lại suy luận quy nạp, mà Neyman rõ ràng được coi là một sự gớm ghiếc.
Neyman dứt khoát đưa ra yêu sách về 'khoảng tin cậy' và nguồn gốc của lý thuyết về khoảng tin cậy trong bài luận năm 1941 Biometrika của ông và lý thuyết về khoảng tin cậy. Theo một nghĩa nào đó, bất cứ điều gì là một khoảng tin cậy đúng theo quy tắc của anh ta và do đó, ý nghĩa của một khoảng riêng lẻ chỉ có thể được biểu thị theo tỷ lệ dài hạn mà tại đó các khoảng được tính theo phương pháp đó chứa (bao gồm) đúng Giá trị tham số.
Bây giờ chúng ta cần rẽ nhánh thảo luận. Một chuỗi theo khái niệm 'phạm vi bảo hiểm', và chuỗi còn lại tuân theo các khoảng phi Neyman giống như các khoảng tin cậy. Tôi sẽ trì hoãn trước đây để tôi có thể hoàn thành bài đăng này trước khi nó trở nên quá dài.
Có nhiều cách tiếp cận khác nhau tạo ra các khoảng tin cậy có thể được gọi là khoảng tin cậy không phải của người Neyman. Đầu tiên trong số này là khoảng thời gian lễ hội của Fisher. (Từ 'fiducial' có thể khiến nhiều người sợ hãi và gợi ra những nụ cười nhạo báng từ những người khác, nhưng tôi sẽ bỏ qua điều đó ...) Đối với một số loại dữ liệu (ví dụ như bình thường với phương sai dân số không xác định), các khoảng được tính theo phương pháp của Fisher giống hệt với các khoảng đó sẽ được tính theo phương pháp của Neyman. Tuy nhiên, họ mời những diễn giải trái ngược nhau. Các khoảng Neymanian chỉ phản ánh các thuộc tính bao phủ dài hạn của phương pháp, trong khi các khoảng của Fisher nhằm hỗ trợ suy luận quy nạp liên quan đến các giá trị tham số thực cho thí nghiệm cụ thể được thực hiện.
Việc một tập hợp giới hạn có thể đến từ các phương pháp dựa trên một trong hai mô hình khác biệt về mặt triết học dẫn đến một tình huống thực sự khó hiểu - kết quả có thể được diễn giải theo hai cách trái ngược nhau. Từ đối số fiducial, có khả năng 95% rằng một khoảng thời gian cụ thể 95% sẽ chứa giá trị tham số thực. Từ phương pháp của Neyman, chúng ta chỉ biết rằng 95% các khoảng được tính theo cách đó sẽ chứa giá trị tham số thực và phải nói những điều khó hiểu về xác suất của khoảng chứa giá trị tham số thực không xác định nhưng là 1 hoặc 0.
Ở một mức độ lớn, cách tiếp cận của Neyman đã ảnh hưởng đến Fisher. Điều đó là không may nhất, theo ý kiến của tôi, bởi vì nó không dẫn đến một sự giải thích tự nhiên về các khoảng. (Đọc lại trích dẫn ở trên từ Neyman và Pearson và xem liệu nó có phù hợp với cách giải thích tự nhiên của bạn về kết quả thử nghiệm hay không. Rất có thể là không.)
Nếu một khoảng có thể được giải thích chính xác về tỷ lệ lỗi toàn cầu nhưng cũng chính xác theo thuật ngữ suy luận cục bộ, tôi không thấy một lý do chính đáng để ngăn chặn người dùng khoảng cách từ cách giải thích tự nhiên hơn được cung cấp sau. Do đó, gợi ý của tôi là cách giải thích hợp lý về khoảng tin cậy là CẢ HAI:
Neymanian: Khoảng 95% này được xây dựng bằng phương pháp mang lại các khoảng bao phủ giá trị tham số thực trong 95% các trường hợp trong thời gian dài (... về kinh nghiệm thống kê của chúng tôi).
Ngư dân: Khoảng 95% này có xác suất 95% bao gồm giá trị tham số thực.
(Bayesian và các phương pháp khả năng cũng sẽ mang lại các khoảng với các thuộc tính thường xuyên mong muốn. Các khoảng như vậy mời các cách hiểu hơi khác nhau mà cả hai có lẽ sẽ cảm thấy tự nhiên hơn Neymanian.)