Khoảng tin cậy nói gì về độ chính xác (nếu có)?


31

Morey et al (2015) cho rằng khoảng tin cậy là sai lệch và có nhiều sai lệch liên quan đến sự hiểu biết về chúng. Trong số những người khác, họ mô tả sai lầm chính xác như sau:

Sai lầm chính xác
Độ rộng của khoảng tin cậy biểu thị độ chính xác của kiến ​​thức của chúng tôi về tham số. Khoảng tin cậy hẹp cho thấy kiến ​​thức chính xác, trong khi lỗi tự tin rộng cho thấy kiến ​​thức không chính xác.

Không có mối liên hệ cần thiết giữa độ chính xác của ước tính và kích thước của khoảng tin cậy. Một cách để thấy điều này là tưởng tượng hai nhà nghiên cứu - một nhà nghiên cứu cao cấp và một nghiên cứu sinh - đang phân tích dữ liệu của người tham gia từ một thí nghiệm. Như một bài tập vì lợi ích của nghiên cứu sinh, nhà nghiên cứu cao cấp quyết định chia ngẫu nhiên những người tham gia thành hai bộ để mỗi người có thể phân tích riêng một nửa bộ dữ liệu. Trong một cuộc họp tiếp theo, hai chia sẻ với nhau Sinh viên của họ khoảng tin cậy cho giá trị trung bình. CI của nghiên cứu sinh là , và CI của nhà nghiên cứu cao cấp là .25 t 95 % 52 ± 2 95 % 53 ± 45025t95%52±295%53±4

Nhà nghiên cứu cao cấp lưu ý rằng kết quả của họ rất nhất quán và họ có thể sử dụng giá trị trung bình có trọng số tương đương của hai ước tính điểm tương ứng của họ, , như một ước tính tổng thể về giá trị trung bình thực.52.5

Tuy nhiên, nghiên cứu sinh cho rằng hai phương tiện của họ không nên có trọng số đồng đều: cô lưu ý rằng CI của cô rộng bằng một nửa và lập luận rằng ước tính của cô chính xác hơn và do đó nên được cân nặng hơn. Cố vấn của cô lưu ý rằng điều này không thể chính xác, bởi vì ước tính từ trọng số không đồng đều của hai phương tiện sẽ khác với ước tính từ việc phân tích bộ dữ liệu hoàn chỉnh, phải là . Sai lầm của nghiên cứu sinh là giả định rằng các TCTD trực tiếp chỉ ra độ chính xác sau dữ liệu.52.5

Ví dụ trên dường như là sai lệch. Nếu chúng ta chia ngẫu nhiên một mẫu thành một nửa, thành hai mẫu, thì chúng ta sẽ mong đợi cả hai phương tiện mẫu và lỗi tiêu chuẩn sẽ được đóng lại. Trong trường hợp như vậy, không nên có bất kỳ sự khác biệt nào giữa việc sử dụng giá trị trung bình có trọng số (ví dụ: trọng số do lỗi nghịch đảo) và sử dụng trung bình số học đơn giản. Tuy nhiên, nếu các ước tính khác nhau và sai số ở một trong các mẫu lớn hơn đáng kể, điều này có thể gợi ý "các vấn đề" với mẫu đó.

Rõ ràng, trong ví dụ trên, kích thước mẫu là như nhau nên việc "nối lại" dữ liệu bằng cách lấy giá trị trung bình của phương tiện giống như lấy giá trị trung bình của toàn bộ mẫu. Vấn đề là toàn bộ ví dụ tuân theo logic không xác định rằng mẫu đầu tiên được chia thành các phần, sau đó được nối lại để ước tính cuối cùng.

Ví dụ có thể được đặt lại để dẫn đến kết luận ngược lại:

Nhà nghiên cứu và sinh viên quyết định chia dữ liệu của họ thành hai nửa và phân tích chúng một cách độc lập. Sau đó, họ so sánh các ước tính của họ và có vẻ như mẫu có nghĩa là họ tính toán rất khác nhau, hơn nữa sai số chuẩn của ước tính của sinh viên là lớn hơn nhiều. Học sinh sợ rằng điều này có thể gợi ý các vấn đề với độ chính xác của ước tính của mình, nhưng nhà nghiên cứu ngụ ý rằng không có mối liên hệ nào giữa các khoảng tin cậy và độ chính xác, vì vậy cả hai ước tính đều đáng tin cậy như nhau và họ có thể xuất bản bất kỳ một trong số chúng, được chọn ngẫu nhiên, như ước tính cuối cùng của họ.

Nói rõ hơn, khoảng tin cậy "chuẩn", như của Học sinh , dựa trên các lỗit

x¯±c×SE(x)

trong đó là hằng số. Trong trường hợp như vậy, chúng liên quan trực tiếp đến độ chính xác, phải không ..?c

Vì vậy, câu hỏi của tôi là:
ngụy biện chính xác có thực sự là ngụy biện? Khoảng tin cậy nói gì về độ chính xác?


Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). Sai lầm của việc đặt niềm tin vào khoảng tin cậy. Bản tin & Đánh giá về Tâm lý học, 1 Hàng21. https://learnbayes.org/ con / confidenceInter đạnFallacy /


2
Tôi cho rằng nếu độ chính xác được xác định là đối ứng của phương sai, thì độ rộng của các TCTD này chỉ phản ánh ước tính của độ chính xác. Nhiều như chiều rộng của khoảng tin cậy Bayes cho giá trị trung bình sẽ phản ánh sự không chắc chắn về độ chính xác.
Scortchi - Phục hồi Monica

@Scortchi thì đây là một cách khác để nói rằng các phương thức thường xuyên không đáng tin cậy nói chung ..?
Tim

7
Tôi muốn nói đây là cá trích đỏ. Tôi chỉ mô phỏng 10.000 thí nghiệm, trong mỗi một mẫu vẽ 50 mẫu từ phân phối bình thường với giá trị trung bình 52,5 và SD 7,5 (sao cho SE của các mẫu con có kích thước 25 sẽ xấp xỉ , mang lại các TCTD của ). Sau đó tôi chia các mẫu này thành hai và kiểm tra tần suất các TCTD khác nhau từ 2 trở lên. Điều này xảy ra chỉ trong 6 trên 10.000 trường hợp. Bất cứ ai quan sát các TCTD khác nhau này sẽ nghi ngờ điều gì đó đã bị phá vỡ trong lựa chọn mẫu. ±37.5/25=5±3
S. Kolassa - Tái lập Monica

@StephanKolassa Tôi đã thực hiện chính xác mô phỏng tương tự dẫn đến kết luận chính xác giống nhau - đây là cách câu hỏi xuất hiện :)
Tim

2
@Tim: Tôi thực sự không biết họ đang cố gắng đạt được điều gì: nếu độ chính xác thực sự của ước tính giá trị trung bình được hình thành như là một hàm của một giá trị tham số không xác định, phổ biến cho hai mẫu phụ, thì tôi đừng nghĩ ai sẽ thừa nhận rằng sự khác biệt về độ rộng của hai TCTD này do đó không phản ánh sự khác biệt về độ chính xác của các ước tính (trừ khi họ nghi ngờ quy trình lấy mẫu con). Việc xem xét các đặc tính bao phủ của các TCTD có điều kiện dựa trên hệ số biến thiên quan sát được có thể là một chiến thuật tốt hơn.
Scortchi - Phục hồi Monica

Câu trả lời:


16

Trong bài báo, chúng tôi thực sự chứng minh sai lầm chính xác theo nhiều cách. Người bạn đang hỏi về - điều đầu tiên trong bài báo - Ví dụ này có nghĩa là chứng minh rằng "CI = chính xác" đơn giản là sai. Điều này không có nghĩa là bất kỳ người thường xuyên có thẩm quyền, Bayesian, hoặc có khả năng sẽ bị nhầm lẫn bởi điều này.

Đây là một cách khác để xem điều gì đang xảy ra: Nếu chúng tôi chỉ nói với các TCTD, chúng tôi vẫn không thể kết hợp thông tin trong các mẫu với nhau; chúng ta sẽ cần phải biết , và từ đó chúng ta có thể phân tách các TCTD thành ˉ xs 2 , và do đó kết hợp hai mẫu đúng cách. Lý do chúng ta phải làm điều này là thông tin trong CI là cận biên so với tham số phiền toái. Chúng ta phải tính đến việc cả hai mẫu đều chứa thông tin về cùng một tham số phiền toái. Này liên quan đến việc tính toán tính toán cả hai 2 giá trị, kết hợp chúng để có được một ước tính tổng thể của σ 2 , sau đó tính toán một CI mới.Nx¯s2s2σ2

Đối với các cuộc biểu tình khác về sai lầm chính xác, xem

  • nhiều TCTD trong phần Welch (1939) (tàu ngầm), một trong số đó bao gồm CI "tầm thường" được đề cập bởi @dsaxton ở trên. Trong ví dụ này, CI tối ưu không theo dõi độ rộng của khả năng và có một số ví dụ khác về các TCTD cũng không.
  • Thực tế là các TCTD - thậm chí các TCTD "tốt" có thể trống rỗng, "sai lệch" cho thấy độ chính xác vô hạn

Câu trả lời cho câu hỏi hóc búa là "độ chính xác", ít nhất là theo cách mà những người ủng hộ CI nghĩ về nó (một đánh giá sau thí nghiệm về mức độ "đóng" của một ước lượng đối với một tham số) đơn giản không phải là một đặc điểm mà khoảng tin cậy nói chung có , và họ không có ý đó. Thủ tục tự tin đặc biệt có thể ... hoặc không.

Xem thêm các cuộc thảo luận ở đây: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1) Thật tuyệt khi được nghe từ tác giả thực tế! Tôi đồng ý rằng CI có một số vấn đề triết học, cũng như TẤT CẢ các hình thức suy luận (chỉ là các vấn đề khác nhau ) ... Tôi thích cách bạn chỉ ra rằng đó là quy trình tự tin cụ thể mà bạn cần xem xét, không chỉ là CI. và mức độ như vậy.

4
(+1) Cảm ơn phản hồi của bạn! Tôi đồng ý với các lập luận mà bạn nêu trong bài báo của mình rằng CI không cần phải nói bất cứ điều gì về độ chính xác, tuy nhiên việc gọi đây là sai lầm mang lại ấn tượng rằng bạn cho biết rằng họ không nói gì về độ chính xác - và điều này không giống ... Hơn nữa: theo ý kiến ​​của bạn, đó là "sai lầm chính xác" một vấn đề phân tích thực tế ..? Tôi đồng ý rằng việc hiểu sai về CI là, nhưng trong trường hợp này, tôi không chắc lắm ...
Tim

2
Tác động "đời thực" rất khó để định lượng, đặc biệt là người ta có thể nói về tác động trong một kịch bản phân tích cụ thể hoặc trên một lĩnh vực. Đối với việc chỉ tính toán một CI trên Gaussian có nghĩa là sai lầm không quá nguy hiểm. Nhưng hãy xem xét danh sách các trích dẫn trên trang 117 (đoạn bắt đầu "Tần suất tự tin của Steiger sẽ như thế nào ..."). Khoảng thời gian trong các bài báo được công bố có khả năng "quá" hẹp. Sai lầm này có những tác động khác: sự thiếu kỹ lưỡng trong việc tạo ra các quy trình CI mới (kiểm tra bất kỳ bài báo nào có CI mới), các nhà phân tích miễn cưỡng tránh xa các giả định của Gaussian khi cần và những người khác.
richarddmorey

Tôi bị trêu ngươi bởi những câu thần chú này. "Tàu ngầm" này là gì?
Tuyệt vời nhất

1
θ

13

Trước hết, chúng ta hãy giới hạn bản thân mình trong các quy trình CI chỉ tạo ra các khoảng với độ rộng hữu hạn, độ rộng hữu hạn (để tránh các trường hợp bệnh lý).

Trong trường hợp này, mối quan hệ giữa độ chính xác và độ rộng CI có thể được chứng minh trên lý thuyết. Lấy một ước tính cho giá trị trung bình (khi nó tồn tại). Nếu CI của bạn cho giá trị trung bình rất hẹp, thì bạn có hai cách hiểu: hoặc bạn đã gặp một số điều xui xẻo và mẫu của bạn bị vón cục quá chặt (tỷ lệ 5% có thể xảy ra), hoặc khoảng của bạn bao hàm ý nghĩa thực sự (95% một cơ hội tiên nghiệm). Tất nhiên, CI được quan sát có thể là một trong hai, nhưng chúng tôi thiết lập tính toán của chúng tôi để điều sau xảy ra nhiều khả năng xảy ra (nghĩa là 95% khả năng là một tiên nghiệm) ... do đó, chúng tôi có mức độ cao của niềm tinrằng khoảng của chúng tôi bao gồm giá trị trung bình, bởi vì chúng tôi thiết lập mọi thứ theo xác suất nên điều này là như vậy. Do đó, CI 95% không phải là khoảng xác suất (như Khoảng tin cậy Bayes), mà giống như "cố vấn đáng tin cậy" ... một người nào đó, theo thống kê, đúng 95%, vì vậy chúng tôi tin tưởng vào câu trả lời của họ bất kỳ câu trả lời cụ thể rất có thể là sai.

Trong 95% trường hợp nó bao phủ tham số thực tế, thì độ rộng cho bạn biết điều gì đó về phạm vi của các giá trị hợp lý được cung cấp cho dữ liệu (nghĩa là bạn có thể ràng buộc giá trị thực như thế nào), do đó, nó hoạt động như một thước đo độ chính xác . Trong 5% trường hợp không có, thì CI bị sai lệch (vì mẫu bị sai lệch).

Vì vậy, chiều rộng CI 95% cho thấy độ chính xác ... Tôi muốn nói rằng có 95% khả năng nó xảy ra (với điều kiện chiều rộng CI của bạn là hữu hạn - hữu hạn) ;-)

CI hợp lý là gì?

Đáp lại bài đăng của tác giả ban đầu, tôi đã sửa đổi phản hồi của mình với (a) có tính đến việc ví dụ "mẫu phân tách" có mục đích rất cụ thể và (b) để cung cấp thêm một số thông tin cơ bản theo yêu cầu của người bình luận:

Trong một thế giới lý tưởng (thường xuyên), tất cả các phân phối lấy mẫu sẽ thừa nhận một thống kê quan trọng mà chúng ta có thể sử dụng để có được khoảng tin cậy chính xác. Điều gì là tuyệt vời về số liệu thống kê quan trọng? Phân phối của chúng có thể được lấy mà không cần biết giá trị thực của tham số được ước tính! Trong những trường hợp tốt đẹp này, chúng tôi có một phân phối chính xác của thống kê mẫu của chúng tôi liên quan đến tham số thực (mặc dù nó có thể không phải là gaussian) về tham số này.

Nói ngắn gọn hơn: Chúng tôi biết phân phối lỗi (hoặc một số chuyển đổi của chúng).

Đó là chất lượng của một số công cụ ước tính cho phép chúng ta hình thành các khoảng tin cậy hợp lý. Các khoảng này không chỉ thỏa mãn định nghĩa của chúng ... chúng làm như vậy nhờ có nguồn gốc từ phân phối lỗi ước tính thực tế.

Phân phối Gaussian và thống kê Z liên quan là ví dụ điển hình về việc sử dụng số lượng quan trọng để phát triển một CI chính xác cho giá trị trung bình. Có nhiều ví dụ bí truyền hơn, nhưng đây thường là ví dụ thúc đẩy "lý thuyết mẫu lớn", về cơ bản là một nỗ lực áp dụng lý thuyết đằng sau các TCTD Gaussian cho các phân phối không thừa nhận số lượng pivotal thực sự. Trong những trường hợp này, bạn sẽ đọc khoảng pivotal, hoặc pivotal (trong cỡ mẫu) hoặc khoảng tin cậy "gần đúng" ... những điều này dựa trên lý thuyết khả năng - cụ thể, thực tế là phân phối lỗi cho nhiều MLE tiếp cận một phân phối bình thường.

Một cách tiếp cận khác để tạo ra các TCTD hợp lý là "đảo ngược" một bài kiểm tra giả thuyết. Ý tưởng là một thử nghiệm "tốt" (ví dụ, UMP) sẽ dẫn đến một CI tốt (đọc: hẹp) cho tỷ lệ lỗi Loại I nhất định. Những điều này không có xu hướng cung cấp bảo hiểm chính xác, nhưng cung cấp bảo hiểm giới hạn thấp hơn (lưu ý: định nghĩa thực tế của X% -CI chỉ nói rằng nó phải bao gồm tham số thực ít nhất là X% thời gian).

Việc sử dụng các bài kiểm tra giả thuyết không yêu cầu trực tiếp một đại lượng quan trọng hoặc phân phối lỗi - tính nhạy cảm của nó được lấy từ tính nhạy cảm của bài kiểm tra cơ bản. Ví dụ: nếu chúng tôi có một bài kiểm tra có vùng từ chối có độ dài 0 5% thời gian và độ dài vô hạn 95% thời gian, chúng tôi sẽ quay lại nơi chúng tôi đã ở với CI - nhưng rõ ràng là bài kiểm tra này không phải là có điều kiện trên dữ liệu và do đó sẽ không cung cấp bất kỳ thông tin nào về tham số cơ bản đang được kiểm tra.

Ý tưởng rộng hơn này - rằng một ước tính về độ chính xác phải có điều kiện trên dữ liệu, quay trở lại Fischer và ý tưởng về thống kê phụ trợ. Bạn có thể chắc chắn rằng nếu kết quả của thủ tục kiểm tra hoặc CI của bạn KHÔNG bị điều kiện bởi dữ liệu (nghĩa là hành vi có điều kiện của nó giống như hành vi vô điều kiện của nó), thì bạn đã có một phương pháp nghi vấn trên tay.


2
Sẽ thật tuyệt nếu bạn có thể giải thích những gì bạn đã thêm vào "Ghi chú". Tôi nghĩ rằng mấu chốt của toàn bộ cuộc thảo luận: người ta có thể nghĩ ra các thủ tục thường xuyên rất kỳ lạ nhưng hợp lệ để xây dựng các TCTD mà theo đó độ rộng của CI không có mối quan hệ nào với độ chính xác nào. Do đó người ta có thể tranh luận, như Morey et al. làm, mà các TCTD bị sai lệch về nguyên tắc. Tôi đồng ý với bạn rằng các quy trình CI thường được sử dụng là hợp lý hơn thế, nhưng người ta cần phải rõ ràng về những gì làm cho chúng như vậy.
amip nói rằng Phục hồi lại

@amoeba Tôi đã thêm một số giải thích về lý do tại sao không phải tất cả các TCTD đều được tạo ra bằng nhau ... ý tưởng chính là phụ trợ, thứ hai là vai trò của phân phối lỗi (hoặc xấp xỉ với nó)

Cảm ơn các cập nhật. Một điều mà tôi vẫn không thấy rất rõ trong câu trả lời của bạn, đó là trong đoạn đầu tiên bạn không nói về chiều rộng của CI; bạn chỉ đang nói về nó có chứa hoặc không chứa tham số dân số thực sự. Tất cả mọi thứ đều đúng ngay cả trong trường hợp "bệnh lý". Sau đó, trong bạn nói rằng có, chiều rộng biểu thị độ chính xác, nhưng bạn chưa cung cấp bất kỳ đối số nào cho điều đó (tại thời điểm đó). Trong các cuộc thảo luận sau, bạn giải thích nó nhiều hơn mặc dù.
amip nói phục hồi Monica

@amoeba Tôi đoán bài viết của tôi có thể làm với định dạng nhiều hơn một chút. Logic cơ bản là thế này (giả sử chúng ta đang sử dụng thủ tục CI "hợp lý" như tôi phác thảo): có một khả năng 95% rằng khoảng đó sẽ chứa tham số thực. Sau khi chúng tôi thu thập dữ liệu, chúng tôi có khoảng thời gian thực tế của chúng tôi (hữu hạn, chiều rộng khác không). NẾU nó chứa tham số thực, thì chiều rộng biểu thị phạm vi của các giá trị hợp lý có thể có, do đó chiều rộng giới hạn phạm vi của tham số. TUY NHIÊN, trong 5% trường hợp khoảng không chứa giá trị, thì khoảng đó là sai lệch.

@amoeba cập nhật bài đăng để nhấn mạnh hơn kết nối giữa độ rộng và độ chính xác của CI.

8

{x1,x2,,xn}(μ,σ2)μ(,){0}dựa trên sự lật của một đồng xu thiên vị. Bằng cách sử dụng sai lệch đúng, chúng ta có thể có được bất kỳ mức độ tin cậy nào mà chúng ta thích, nhưng rõ ràng khoảng "ước tính" của chúng ta không có độ chính xác nào cả ngay cả khi chúng ta kết thúc với một khoảng có độ rộng bằng không.

Lý do tại sao tôi không nghĩ rằng chúng ta nên quan tâm đến sai lầm rõ ràng này là trong khi sự thật là không có kết nối cần thiết giữa độ rộng của khoảng tin cậy và chính xác, có một kết nối gần như phổ quát giữa sai số chuẩn và chính xác, và trong hầu hết các trường hợp độ rộng của khoảng tin cậy tỷ lệ thuận với sai số chuẩn.

σ


Điểm hay về các TCTD vô hạn ngẫu nhiên ... chắc chắn cho thấy sự tự tin là một khái niệm khác với độ chính xác. Tôi có lẽ nên ngăn chặn phản ứng của mình bằng cách nói rằng tôi đang giả sử một CI dựa trên khả năng, trong đó chiều rộng có liên quan đến độ cong của khả năng đăng nhập, đó là một xấp xỉ của lỗi tiêu chuẩn ... bài đăng của bạn chỉ ra rằng có các TCTD đạt được về mặt kỹ thuật bảo hiểm nhưng theo một cách rất phản trực giác.

Một vấn đề liên quan (mặc dù rất thú vị) là các tập hợp con có liên quan cho một CI ... ví dụ: nếu bạn dựa vào thống kê phụ trợ, phạm vi bảo hiểm CI của bạn có thể thay đổi (một trường hợp là phạm vi bảo hiểm có điều kiện của khoảng thời gian t thay đổi dựa trên sự thay đổi của mẫu của bạn). Đây là liên kết đến bài báo: jstor.org/urdy/2242024?seq=1#page_scan_tab_contents

@Bey Có một ví dụ ít cực đoan hơn từ bài báo này liên quan đến một chiếc tàu ngầm: webfiles.uci.edu/mdlee/fundTHERError.pdf . Đó là một điều thú vị, nhưng một lần nữa dường như là một trường hợp diễn giải mà không một người thông minh nào có thể thực hiện.
DSaxton 30/03/2016

Đồng ý .... không thể để ý thức chung ở cửa với các số liệu thống kê ... ngay cả trong Machine Learning (phần nào đó là một cách viết sai)

1
@richarddmorey: Được rồi, tôi hiểu rồi. Sau đó, nó chỉ là một công thức không may! Tôi đã không đưa nó ra khỏi bối cảnh trên mục đích; Tôi thành thật đọc câu này như một bản tóm tắt và khái quát cho mọi tình huống (không nhận ra rằng "trong ví dụ đó" đã được giả định trong câu đó). Xem xét để lại một bình luận làm rõ trong chủ đề khác với lời buộc tội của tôi (đã có một số upvote).
amip nói rằng Phục hồi Monica

4

Tôi nghĩ rằng sự khác biệt rõ ràng giữa "khoảng tin cậy" và "độ chính xác" (xem câu trả lời từ @dsaxton) là quan trọng bởi vì sự khác biệt đó chỉ ra các vấn đề trong cách sử dụng chung của cả hai thuật ngữ.

Trích dẫn từ Wikipedia :

Độ chính xác của một hệ thống đo lường, liên quan đến độ tái lập và độ lặp lại, là mức độ mà các phép đo lặp lại trong các điều kiện không thay đổi cho thấy kết quả tương tự.

Do đó, người ta có thể lập luận rằng các khoảng tin cậy thường xuyên đại diện cho một loại độ chính xác của sơ đồ đo lường . Nếu một lần lặp lại cùng một sơ đồ, 95% CI được tính cho mỗi lần lặp lại sẽ chứa một giá trị thực của tham số trong 95% số lần lặp lại.

Tuy nhiên, đây không phải là điều mà nhiều người muốn từ một thước đo chính xác thực tế. Họ muốn biết khoảng cách giữa giá trị đo được là sự thật giá trị . Khoảng tin cậy thường xuyên không cung cấp chính xác thước đo chính xác đó. Bayesian khu vực đáng tin cậy làm.

Một số nhầm lẫn là, trong các ví dụ thực tế, khoảng tin cậy thường xuyên và các khu vực đáng tin cậy Bayes "sẽ ít nhiều trùng lặp" . Lấy mẫu từ một bản phân phối bình thường, như trong một số nhận xét về OP, là một ví dụ như vậy. Đó cũng có thể là trường hợp thực tế đối với một số loại phân tích rộng hơn mà @Bey đã nghĩ đến, dựa trên các xấp xỉ với các lỗi tiêu chuẩn trong các quy trình có phân phối bình thường trong giới hạn.

Nếu bạn biết rằng bạn đang ở trong một tình huống như vậy , thì có thể không có mối nguy hiểm thực tế nào trong việc diễn giải một CI 95% cụ thể, từ việc thực hiện một sơ đồ đo lường, như có xác suất 95% chứa giá trị thực. Tuy nhiên, việc giải thích các khoảng tin cậy không phải từ các số liệu thống kê thường xuyên, mà giá trị thực sự là hoặc không nằm trong khoảng cụ thể đó.

Nếu khoảng tin cậy và vùng đáng tin cậy khác nhau rõ rệt, thì cách giải thích giống như Bayes về khoảng tin cậy thường xuyên có thể gây hiểu nhầm hoặc sai, vì bài báo liên kết ở trên và tài liệu trước đó đã tham chiếu trong đó chứng minh. Đúng, "lẽ thường" có thể giúp tránh những giải thích sai như vậy, nhưng theo kinh nghiệm của tôi thì "lẽ thường" không quá phổ biến.

Các trang CrossValidated khác chứa nhiều thông tin hơn về khoảng tin cậy và sự khác biệt giữa khoảng tin cậy và vùng đáng tin cậy . Liên kết từ các trang cụ thể cũng rất nhiều thông tin.


Đây là một điểm tốt .... Tôi nghĩ rằng suy nghĩ gần nhất với cách giải thích phổ biến về "độ chính xác" giống như lỗi RMS. Một ước lượng không thiên vị nhưng có độ biến thiên cao được coi là không tốt hơn một ước lượng có độ biến thiên thấp nhưng sai lệch cao ... cả hai không thể dựa vào để đưa ra ước tính gần với giá trị thực.

+1, nhưng tôi không chắc tôi chia sẻ quan điểm bi quan của bạn về "lẽ thường". Có một câu nói hay của Jeffreys về "lẽ thường" trong thống kê thường xuyên : I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
amip nói rằng Phục hồi lại

@amoeba xem xét tuyên bố của Laplace rằng "Lý thuyết xác suất không là gì ngoài ý nghĩa thông thường được giảm bớt để tính toán." Những nỗ lực dành cho lý thuyết xác suất ít nhất cho thấy rằng ý nghĩa của lẽ thường không phải lúc nào cũng rõ ràng.
EDM

@amoeba: Fisher đã từ chối các TCTD và xác định Fisher là freq-ist. là sai lệch. Logic của anh ấy trong các khoảng (fiducial) tương tự như obj. Bayes, và anh ta xác định xác suất với sự không chắc chắn hợp lý. Ông nói điều này: "Đôi khi người ta khẳng định rằng phương pháp fiducial thường dẫn đến kết quả tương tự như phương pháp của [TCTD]. Thật khó để hiểu làm thế nào điều này có thể như vậy, vì nó đã được đặt ra một cách chắc chắn rằng phương pháp tự tin khoảng thời gian không dẫn đến các tuyên bố xác suất về các tham số của thế giới thực, trong khi đối số fiducial tồn tại cho mục đích này. " (Fisher, 1959)
richarddmorey

@richard, Cảm ơn đã làm rõ. Fisher được biết là đã nói những điều mâu thuẫn trong suốt sự nghiệp lâu dài của mình và đã thay đổi quan điểm của mình một vài lần. Tôi không thực sự quen thuộc với lý thuyết lễ hội của anh ấy nên không thể bình luận về điều đó. Giả định vô thức của tôi là Jeffreys trong trích dẫn đó đã đề cập đến "thời kỳ thường xuyên" của Fisher nhưng tôi không có bằng chứng nào cho điều đó. Theo kinh nghiệm (có giới hạn!) Của tôi, không ai từng sử dụng suy luận fiducial. Không ai. Không bao giờ. Trong khi đó các kỹ thuật thường xuyên được sử dụng mọi lúc và nhiều người quay trở lại Fisher. Do đó, hiệp hội tồn tại trong tâm trí của tôi.
amip nói phục hồi Monica

1

@Bey có nó. Không có mối liên hệ cần thiết giữa điểm số và hiệu suất cũng như giá cả và chất lượng cũng như mùi và vị. Tuy nhiên, người này thường thông báo về người khác.

Người ta có thể chứng minh bằng cảm ứng rằng người ta không thể đưa ra một câu đố pop. Khi kiểm tra chặt chẽ điều này có nghĩa là người ta không thể đảm bảo bài kiểm tra là một bất ngờ. Tuy nhiên, hầu hết thời gian nó sẽ được.

Nghe có vẻ như Morey et al cho thấy có những trường hợp tồn tại chiều rộng không chính xác. Mặc dù điều đó đủ để khẳng định "Không có mối liên hệ cần thiết nào giữa độ chính xác của ước tính và kích thước của khoảng tin cậy", nhưng không đủ để kết luận thêm rằng các TCTD thường không chứa thông tin về độ chính xác. Chỉ là họ không được đảm bảo để làm như vậy.

(Không đủ điểm cho câu trả lời của + @ Bey.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.