Khoảng dự đoán nhị thức nào hoạt động tốt cho xác suất đuôi, tức là cho lớn


7

Tôi đang làm việc về một vấn đề có những phẩm chất sau đây.

  • Dữ liệu khả dụng rất nhiều - theo thứ tựx106
  • CDF có hỗ trợ về các số thực không âm.FX
  • Tôi không biết .FX
  • Chúng ta có thể giả sử dữ liệu là iid.
  • Tôi đang cố gắng ước tính xác suất một mẫu trong tương lai được rút ra từ giảm xuống dưới mức tối thiểu mẫu . Hơn nữa, tôi muốn giữ xác suất này dưới một giá trị cụ thểFXx(1)α.

Khi một người quan tâm đến khoảng tin cậy , cách tiếp cận là chọn một số giá trị (vì có hỗ trợ không âm) và sử dụng , sau đó rút ra các khoảng tin cậy nhị thức đuôi trái bằng cách sử dụng bất kỳ một số tùy chọn nào, chẳng hạn như áp dụng CLT hoặc Casella hoặc Jeffreys hoặc Agresti's hoặc bất kỳ phương pháp nào khác.k>0xFX^(k)=p^=#(xik)n

Điều này có vẻ dễ vỡ đối với lớn và nhỏ , đặc biệt vì . Hơn nữa, trong trường hợp của tôi, chúng tôi đang ước tính một khoảng dự đoán cho các quan sát trong tương lai. Có một khoảng dự đoán nhị thức hoạt động tốt trong những trường hợp này?nkk=x(1)

Một cách tiếp cận Bayes sẽ ước tính trực tiếp và làm việc từ đó. Điều đó có vẻ khó hơn là rất cần thiết cho phạm vi hẹp của vấn đề này.F

Câu trả lời "Không, cuộc sống là không công bằng và không có giải pháp tốt cho vấn đề này" cũng hữu ích nếu có một trích dẫn hay để đi với nó.


2
Viên đạn thứ tư (cuối cùng) của bạn cho thấy bạn không tính toán khoảng tin cậy: dường như bạn đang yêu cầu mức độ bao phủ của giới hạn dự đoán . Đó có phải là một cách giải thích chính xác?
whuber

@whuber Vâng, đó là chính xác: chúng tôi sẽ có một số dữ liệu trong tương lai và tôi muốn ước tính xác suất một trong những giá trị mới đó giảm xuống dưới mức tối thiểu mẫu mà tôi có ngày hôm nay.
Sycorax nói phục hồi Monica

2
Tôi đoán bạn đã quen thuộc với chủ đề này: stats.stackexchange.com/questions/82720/ , nhưng đăng nó để tham khảo (xem thêm bài viết được trích dẫn).
Tim

@Tim Vâng, cảm ơn bạn. Tôi thực sự đã chỉnh sửa liên kết đó trong một trong những chỉnh sửa của mình. Đề xuất khoảng AC sẽ xuất hiện (1) chỉ giải quyết điều kiện lớn chứ không phải điều kiện nhỏ và (2) đề cập đến khoảng tin cậy giữa các khoảng dự đoán. Đọc của tôi là thiếu sót. np
Sycorax nói phục hồi Monica

1
@Sycorax việc đọc của bạn không có lỗi, tôi đang cung cấp tài liệu này để tham khảo vì nó có liên quan nhưng bạn nói đúng đó chỉ là về CI.
Tim

Câu trả lời:


8

Có một giới hạn dự đoán không đối xứng đơn giản. Hãy nhớ lại rằng giới hạn dự đoán là một quy trình bao gồm hai mẫu độc lập và , hai thống kê và và kích thước . Khi cơ hội nhỏ hơn là hoặc nhỏ hơn, chúng tôi nói rằng là giới hạn dự đoán thấp hơn một phía đối với có kích thước . PL trong câu hỏi sử dụng nhỏ nhất trong sốX=x1,,xnY=y1,,ymts 1αs(Y)t(X)αts 1αxi cho . Dự định rằng tất cả các phải bằng hoặc vượt quá PL với xác suất cao. Tương đương, là nhỏ nhất trong tất cả các .t(X)yjs(Y)yj

PL này hoạt động khi các quan sát độc lập và phân phối giống hệt nhau và các quan sát bổ sung cũng iid và độc lập với các quan sát đầu tiên . Các giả định này ngụ ý tất cả các quan sát có thể trao đổi, do đó (dễ dàng) ngụ ý quan sát nhỏ nhất của tất cả chúng được tìm thấy trong số đầu tiên với xác suất ít nhất là . Kích thước là cơ hội mà một (ít nhất) của tất cả các quan sát được gắn cho các giá trị nhỏ nhất nằm trong giá trị của . Cơ hội này không nhỏ hơn . Khi phân phối cơ bản phổ biến là liên tục, nó chính xácnmnn+mnn/(n+m)nXn/(n+m)n/(n+m) .

Ví dụ: giá trị nhỏ nhất là giới hạn dự đoán thấp hơn cho giá trị bổ sung. Giá trị nhỏ nhất của chỉ là giới hạn dự đoán thấp hơn cho giá trị bổ sung.n=9595%m=5n=10650%m=106

Những cân nhắc tương tự (đòi hỏi sự tinh tế kết hợp nhiều hơn) được sử dụng để tính toán phạm vi của bất kỳ thống kê đơn hàng nào qua giới hạn dự đoán. Xem phần 5.4 của Hahn & Meeker để biết tóm tắt ("Khoảng dự đoán không phân phối để chứa ít nhấtk của m những quan sát trong tương lai. ")

Tài liệu tham khảo

Gerald J. Hahn và William Q. Meeker, Khoảng thời gian thống kê, Hướng dẫn cho các học viên. J. Wiley & Sons, 1991.


Mở rộng dòng lý luận này xa hơn, đây phải chính xác là cách chúng ta tiến hành thủ tục bootstrap hai mẫu để ước tính các lượng tử được nêu trong Hogg McKean và Craig: bootstrap xấp xỉ kết quả kết hợp phức tạp hơn.
Sycorax nói phục hồi Monica

Điều đó có thể hiểu được. (Tôi không quen thuộc với H, McK và C.) Nhưng nếu đó là tất cả các bootstrap đang làm, bạn nên xem xét để có được câu trả lời chính xác (với tính toán ít hơn nhiều) bằng cách sử dụng các công thức kết hợp. Ví dụ, chúng có lợi thế là cho phép bạn đảo ngược vấn đề để tìm kích thước mẫu để đạt được bất kỳ kích thước mong muốn nào trong PL.
whuber

1
Đó là một văn bản thống kê toán học giới thiệu, vì vậy tôi nghĩ rằng thủ tục được vạch ra vì lý do chủ yếu là sư phạm. Quan điểm của bạn về số lượng chính xác và đảo ngược được thực hiện tốt. Cảm ơn bạn cho câu trả lời được xem xét tốt này.
Sycorax nói phục hồi Monica

Tôi vấp phải một phần lý do. Xác suất rút ra tiếp theo từF là ở hoặc dưới một số kF(k). Băng quam iid bốc thăm, số lần rút thăm dưới đây k có nhị thức m,F(k)phân phối. Có phải trường hợp phân biệt giữa câu trả lời của bạn và mô hình nhị thức này là mô hình nhị thức giả sửk được sửa chữa trước, trong khi trong vấn đề của tôi, chúng tôi quan tâm đến x(1)?
Sycorax nói phục hồi Monica

1
Tôi cũng tin như thế. Thật vậy, theo viên đạn thứ ba của câu hỏi bạn không thực sự biết điều gìF(k) dành cho bất kỳ k- điều tốt nhất bạn có thể làm (nếu bạn phải) là ước tính nó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.