Xác suất thất bại trong một dân số hữu hạn


7

Tôi thường xuyên kiểm tra các quần thể hữu hạn cho các thất bại (chúng tôi tạo ra các sản phẩm tùy chỉnh theo lô ~ 500-800). Hiện tại, chúng tôi kiểm tra mọi sản phẩm cho sự thất bại, đó là một chút công việc. Tôi muốn giảm số lượng mẫu mà chúng tôi kiểm tra bằng cách nêu tỷ lệ lỗi mong muốn và xác định số lượng mẫu cần kiểm tra để tự tin rằng chúng tôi đang đạt tỷ lệ lỗi.

Tôi biết rằng quy tắc 3 sẽ được áp dụng nếu không có thất bại, nhưng tôi muốn một giải pháp chính xác hơn trong các tình huống lấy mẫu không có lỗi.

Điều này có vẻ như sẽ được mô hình hóa tốt nhất dưới dạng phân phối siêu bội , nhưng tôi đang vật lộn để đóng khung câu hỏi đúng theo các thuật ngữ này. Tôi thích các ví dụ, vì vậy tôi có dân số 500 người và tôi muốn tự tin 99% rằng có 5 hoặc ít hơn những thất bại trong dân số.

Làm cách nào để đóng khung loại câu hỏi này bằng cách sử dụng phân phối siêu bội?

Nỗ lực hiện tại của tôi là điều này (về các biến Wiki):

N=500; K=495; n=100; P(X)=0.01

Với mẫu 50 và 3 lần thất bại, xác suất tỷ lệ thất bại 10% là (vì một số lý do, tôi nhận được [Lỗi xử lý toán học] khi sử dụng LaTex, vì vậy tôi sẽ đăng tiến trình của mình trong các lệnh R)

qhyper(p=0.01, m=495, n=5, k=100)

Mà cho k=97. Giải thích điều này, tôi nên lấy đi từ 100 mẫu được đặt trong dân số 500, tôi có thể tin tưởng 99% rằng nếu tôi tìm thấy 3 hoặc ít hơn các lỗi trong mẫu của mình, tỷ lệ lỗi không thấp hơn 1% (hoặc 5 trong 500)?

Tôi thừa nhận không có trực giác tuyệt vời cho loại phân phối này, nhưng ruột của tôi đang khiến tôi tạm dừng khi nghĩ đến việc lấy mẫu 100 mẫu, tìm thấy 3 thất bại và tuyên bố với độ tin cậy 99% rằng chỉ có tối đa 2 lần nữa trong 400 còn lại.


1
Quy tắc 3 thực sự không phải là sự lựa chọn tốt nhất: stats.stackexchange.com/questions/134380/ mẹo
Tim

Cảm ơn bạn đã cập nhật, @Tim. Tôi chắc chắn sẽ sử dụng một cách tiếp cận khác khi không có thất bại. Tuy nhiên, tôi vẫn quan tâm đến một giải pháp khi thất bại tồn tại.
Ashe

Câu trả lời:


6

Giả sử bạn lấy mẫu n thành viên từ dân số N (không thay thế) và ktrong số đó là những thất bại. Định nghĩa về sự tự tin cho chúng ta đặt câu hỏi này:

Nếu có K thất bại trong dân số, cơ hội chúng ta quan sát là gì k hoặc ít thất bại hơn trong mẫu?

Không đi sâu vào chi tiết tổ hợp, hãy gọi số này p(k,K;n,N). Nó có thể được sử dụng để thiết lập giới hạn tin cậy trênKthông qua một hình thức đảo ngược logic. Để choNn cả được biết đến và αlà một xác suất xác định. NếuK quá lớn p(k,K;n,N)<α, sau đó không chắc chúng ta đã quan sát khoặc ít thất bại hơn ở nơi đầu tiên. Điều này cho chúng tôi niềm tin rằng con số thất bại thực sự,K, hoàn toàn ít hơn K.

Đẩy lý do này đến giới hạn tự nhiên của nó, do đó chúng tôi tìm kiếm giá trị nhỏ nhất Kp(k,K;n,N)<α. Chúng tôi sẽ sử dụngK1 cho 1α giới hạn tin cậy trên K. Tương đương, chúng ta có thể tối đa hóa giá trịKp(k,K;n,N)α:

(1)UCLα(k)=max{K|p(k,K;n,N)α}.

Bây giờ để biết chi tiết. Cơ hội quan sát chính xáck thất bại là cơ hội mà (a) của chúng ta nmẫu -element chứa những thất bại và (b) các thành viên còn lại trong dân số chứa các thất bại còn lại . Điều này mô tả các tập hợp con trong số các tập hợp con có khả năng như nhau. Tổng các giá trị này cho tất cả các giá trị từ đến bằng với số lần thất bại quan sát thực tế mang lạikNnKk(Kk)(NKnk)(Nn)k=0k

p(k,K;n,N)=1(Nn)j=0k(Kj)(NKnj).

Đây là phân phối Hypergeometric .

Trong Rví dụ, các thông số để cung cấp cho các chức năng hypergeometric là (gọi trên trang sổ tay), , ( ), và ( ). Các dụng cụ chức năng và chức năng thực hiện nghịch đảo của nó.NKmKnnkphyperpqhyper

Lấy ví dụ, một trường hợp dân số có phần tử mà từ đó mẫu có kích thước được rút ra và thất bại được quan sát. Sau đóN=8n=4k=1

p(3,K,4,8)=1(84)j=01(Kj)(8K4j)=170((8K4)+K(8K3)).

Các giá trị có thể có của phạm vi từ tối thiểu (một lỗi được quan sát) đến (xảy ra khi mọi thành viên không quan sát được trong dân số là một thất bại). Việc cắm các giá trị này vào phương trình trước sẽ cho chuỗiKk=1k=k+(Nn)=5

(70,55,35,17,5)/70(100,79,50,24,7)/100.

R sẽ tính toán chúng trong một đột quỵ như

phyper(1, 1:5, 8-(1:5), 4)

Chúng tôi đọc những con số như thế này:

  • Có niềm tin dân số có ít nhất thất bại. (Chúng tôi đã thấy nó.)100%K=1

  • Có niềm tin dân số có ít nhất lần thất bại. Nói cách khác, chúng tôi rất tin tưởng vào sự tồn tại của ít nhất một lần thất bại nữa trong số thành viên không được quan sát.79%K=2Nn=4

  • Có niềm tin dân số có ít nhất lần thất bại. Điều này có vẻ phản trực giác: vì chúng ta đã thấy một nửa dân số và quan sát thấy thất bại, chúng ta có nên gán chính xác để thấy thêm một lần thất bại trong nửa còn lại của dân số không? Đây là nơi niềm tin khác với xác suất. Cách tiếp cận chính xác đặt câu hỏi này: khi có thất bại trong dân số (có kích thước ) và chúng ta lấy mẫu một nửa số đó, cơ hội nào chúng ta sẽ thấy chỉ là 0 hoặc một lần thất bại? Bằng cách đối xứng - bản thân các thành viên không được ghép đôi cũng tạo thành một mẫu ngẫu nhiên - đây là cơ hội mà50%K=3k=11/2=50%K=3N=8Nn=4các thành viên không được ghép đôi còn lại sẽ chỉ bao gồm 0 hoặc một lần thất bại. Do đó, quan sát không hoặc một trong ba thất bại trong dân số là một sự kiện sẽ xảy ra một nửa thời gian. Do đó, thực tế quan sát một thất bại là hoàn toàn phù hợp với sự hiện diện của tổng ba thất bại.

  • Có độ tin cậy dân số có ít nhất lần thất bại và độ tin cậy có ít nhất lần thất bại. Những con số này đang bắt đầu gần với các giá trị tiêu biểu của . Chẳng hạn, với , giới hạn tin cậy trên cho sẽ là . Nhưng với , UCL trên cho là . Khi chúng ta quan sát thấy một trong bốn thất bại, trong một mẫu từ dân số tám, có một rủi ro đáng kể là tất cả24%K=47%K=5αα=0.1090%KK=4α=0.0595%KK=5các thành viên không được ghép đôi là thất bại! Điều này là do khi năm trong số tám thành viên thất bại, vẫn còn một cơ hội đáng kể - hơn - đó là mẫu của chúng tôi chỉ xảy ra bao gồm cả ba thành công.7%

Lưu ý rằng qhypertrong Rthực hiện không giới hạn tin cậy tính toán. Bạn cần tìm kiếm, giống như chúng ta đã làm trong ví dụ này. Một tìm kiếm vũ phu (nhưng tương đối hiệu quả R) kiểm tra tất cả các giá trị, như trong

which(phyper(1, 1:5, 8-(1:5), 4) >= .10)

Lệnh này trả về các chỉ mục 1 2 3 4, cho thấy bốn phần tử đầu tiên của vectơ 1:5(đại diện cho các giá trị có thể có của ) phù hợp với các quan sát của chúng tôi ở mức . Lớn nhất trong số đó, , tương ứng với như chúng tôi đã tìm thấy thông qua kiểm tra.Kα=0.104K=4


Trong ví dụ của câu hỏi, một mẫu có kích thước được lấy từ dân số và thất bại được quan sát. A là gì giới hạn sự tự tin trên cho tổng số thất bại ? Các tìm kiếm làn=100N=500k=390%KR

`max(which(phyper(3, 1:100, 500-(1:100), 100) >= .10))`

(Sự tương ứng giữa điều này và công thức toán học cho UCL trong là rõ ràng.)(1)

Nó trả về UCL là . Hãy kiểm tra kỹ bằng cách tính các xác suất và . Cái đầu tiên nên vượt quá và cái thứ hai sẽ giảm xuống ngay dưới nó:30p(3,30;100,500)p(3,31;100,500)10%

> phyper(3, 30, 500-30, 100)
[1] 0.1151626
> phyper(3, 31, 500-31, 100)
[1] 0.09959309

Đó chính xác là những gì xảy ra. Chúng tôi kết luận, với độ tin cậy ít nhất , tồn tại tối đa (nhưng không quá) thất bại bổ sung trong số thành viên không được của dân số.90%Kk=303=27Nn=500100=400


1
Như mọi khi, cảm ơn bạn đã dành thời gian và phản hồi chi tiết như vậy, @whuber. Đây chính xác là những gì tôi cần. Khoảnh khắc "ah ha" của tôi là trong thời điểm đạn thứ hai của bạn khi dân số bị chia đôi.
Ashe
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.