Nếu tôi muốn có 95% cơ hội có ít hơn 1% đối tượng bị lỗi, tôi cần bao nhiêu mẫu?

Tôi cần đảm bảo rằng sơ đồ trang web XML của tôi có ít hơn rác (liên kết bị hỏng). Danh sách URL có hàng trăm ngàn và thậm chí nếu nó có thể khả thi để kiểm tra tất cả từng cái một thì tôi không muốn, vì nhiều lý do: $1\%$

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

Vì vậy, tôi nghĩ rằng việc lấy một tập hợp con ngẫu nhiên là đủ, vấn đề là tôi không biết xác suất.

Có một chức năng đơn giản tôi có thể sử dụng?

Nếu nó hữu ích, chúng ta có thể giả sử có thông tin tiên nghiệm về xác suất liên kết bị phá vỡ trong các lần chạy. Giả sử rằng các lượt chạy có cho bất kỳ liên kết cụ thể nào bị phá vỡ. $0.75\%$

probability confidence-interval sample-size

— gurghet
nguồn

Bạn có bao nhiêu URL? (Suy luận về một dân số hữu hạn có phần khác với trường hợp suy luận thông thường về một dân số vô hạn.)

— Kodiologist

?? một con số hữu hạn rõ ràng

— gurghet

Điều đó không cần phải nói, nhưng số lượng hữu hạn?

— Kodiologist

trong hàng trăm ngàn, mỗi ngày có một chút khác biệt

— gurghet

Điều gì đang xảy ra với bản đồ trang web của bạn đang thay đổi nó? Bạn có bản đồ trang web hoàn toàn khác nhau mỗi ngày hay một số URL được thêm và xóa? Nếu sau này, bạn có thể theo dõi những cái đã được thêm hoặc xóa, để bạn chỉ cần kiểm tra cái mới?

— Kodiologist

Câu trả lời:

Vì vậy, nó phụ thuộc vào sự phân phối niềm tin trước đây của bạn về tỷ lệ vỡ, nhưng: khoảng 3600.

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

Ý tưởng ở đây là mô hình phá vỡ liên kết dưới dạng thử nghiệm Bernoulli và mô hình hóa niềm tin của bạn về tỷ lệ vỡ như phân phối beta. Phân phối beta được liên hợp với phân phối Bernoulli và cách cập nhật phân phối beta khi bạn chạy thử nghiệm khá đơn giản:

nếu đó là một thất bại, bạn thêm một vào tham số đầu tiên, $\alpha$
nếu thành công, bạn thêm một vào tham số thứ hai, $\beta$

Vì vậy, nếu chúng ta bắt đầu với phân phối và thấy thất bại khoảng 0,75% thời gian, thì sẽ mất bao nhiêu thử nghiệm trước 95% khối lượng phân phối dưới 0,01? Khoảng 3600. $\text{Beta}(0, 0)$

— Andy Jones
nguồn

Một trong những trường hợp phân tích Bayes có ý nghĩa hơn vì trước đó không chỉ là một trò lừa hoang dã hay tệ hơn là một ý định thao túng. Nhưng có lẽ bạn có thể thực hiện quét qua tham số nói từ 0,5 đến 0,9% và vẽ sơ đồ yêu cầu tương ứng

p

$p$

n

$n$

— David Ernst

Đối với mẫu có cơ hội thất bại, phương sai cho số lần thất bại là . Vì vậy, sử dụng định lý giới hạn trung tâm, với là một tiêu chuẩn thông thường, Bây giờ chúng tôi muốn ở trên bằng 95 %, tương ứng với . Giải cho , tôi nhận được . $n$ $p=0.0075$ $n p (1-p)$ $Z$

\begin{aligned} P (failures < .01 n) \approx P (Z < \frac{n (.01 - p)}{\sqrt{n p (1 - p)}}) \approx P (Z < \sqrt{n} .02898) \end{aligned}

$\begin{align*} \mathbb{P}(\text{failures} < .01 n) \approx \mathbb{P}(Z < \frac{n (.01 - p)}{\sqrt{n p (1-p)}}) \approx \mathbb{P}(Z < \sqrt{n} .02898) \end{align*}$

Z = 1.645

$Z = 1.645$

\sqrt{n} .02898 = 1.645

$\sqrt{n} .02898 = 1.645$

n = 3222

$n=3222$

— jackkamm
nguồn