Xác suất của giao điểm từ nhiều mẫu của cùng một quần thể


10

Đây là một ví dụ:

  • Tôi có dân số 10.000 mặt hàng. Mỗi mục có một id duy nhất.
  • Tôi chọn ngẫu nhiên 100 mục và ghi lại id
  • Tôi đưa 100 mục trở lại vào dân
  • Tôi chọn ngẫu nhiên 100 mục một lần nữa, ghi lại id và thay thế.
  • Tổng cộng, tôi lặp lại việc lấy mẫu ngẫu nhiên này 5 lần

Xác suất mà số lượng vật phẩm xuất hiện trong cả 5 lần lấy mẫu ngẫu nhiên là bao nhiêu?X

Tôi không rành về thống kê. Điều này có đúng với không?X=10

  • Đối với mỗi lần lấy mẫu, số lượng kết hợp có thể có của 100 mục từ 10.000 làbinom(10000,100)
  • Trong số tất cả các kết hợp có thể có của 100 mục, các kết hợp chứa 10 mục cụ thểbinom(9990,90)binom(100,10)
  • Xác suất có 10 mặt hàng cụ thể là(binom(9990,90)binom(100,10))/binom(10000,100)
  • Xác suất tính toán cho sức mạnh của 5 sẽ đại diện cho 5 lần lấy mẫu độc lập.

Vì vậy, về cơ bản chúng ta chỉ đang tính toán 5 xác suất siêu bội độc lập và sau đó nhân chúng lại với nhau? Tôi cảm thấy như mình đang thiếu một bước ở đâu đó.


3
Nếu bạn lặp lại một cái gì đó một lần, điều đó có nghĩa là bạn làm tất cả hai lần. Không lặp lại điều gì 5 lần ngụ ý bạn làm điều đó 6 lần?
Glen_b -Reinstate Monica

Câu trả lời:


3

Tính toán các cơ hội đệ quy.

Đặt là xác suất chính xác cho các giá trị , , được chọn trong tất cả rút độc lập của mục (không thay thế) từ dân số thành viên . (Hãy giữ và cố định trong suốt thời gian phân tích để chúng không phải được đề cập rõ ràng.)x 0 x k s 1 k n k > 0 n kps(x)x0xks1knk>0nk

Đặt là xác suất nếu các giá trị chính xác được chọn trong lần rút đầu tiên , thì trong số chúng được chọn trong lần rút cuối cùng. Sau đó, vì có các tập hợp của các phần tử của các phần tử đó và các tập hợp con của các phần tử còn lại được chọn riêng biệt khỏi các thành viên khác của dân số,y s - 1 x yps(xy)ys1xy(yx)xy(nykx)kxny

ps(xy)=(yx)(nykx)(nk).

Định luật tổng xác suất khẳng định

ps(x)=y=xkps(xy)ps1(y).

Với , chắc chắn rằng : đây là phân phối bắt đầu.s=1x=k

Tổng số tính toán cần thiết để có được phân phối đầy đủ thông qua lần lặp lại là . Không chỉ là nhanh chóng hợp lý, thuật toán là dễ dàng. Một cạm bẫy đang chờ đợi lập trình viên bất đắc dĩ là những xác suất này có thể trở thành cực kỳ nhỏ và vượt quá các phép tính dấu phẩy động. Việc triển khai sau đây tránh được điều này bằng cách tính các giá trị của trong các cột của một mảng.sO(k2s)Rlog(ps(x))1,2,,s

lp <- function(s, n, k) {
  P <- matrix(NA, nrow=k+1, ncol=s, dimnames=list(0:k, 1:s))
  P[, 1] <- c(rep(-Inf, k), 0)
  for (u in 2:s) 
    for (i in 0:k) {
      q <- P[i:k+1, u-1] + lchoose(i:k, i) + lchoose(n-(i:k), k-i) - lchoose(n, k)
      q.0 <- max(q, na.rm=TRUE)
      P[i+1, u] <- q.0 + log(sum(exp(q - q.0)))
    }
  return(P)
}
p <- function(...) zapsmall(exp(lp(...)))

Câu trả lời cho câu hỏi có được bằng cách cho và . s=5, n=10000=104k=100=102 Đầu ra là một mảng , nhưng hầu hết các số rất nhỏ, chúng tôi có thể tập trung vào rất nhỏ . Dưới đây là bốn hàng đầu tiên tương ứng với :101×5xx=0,1,2,3

p(5, 1e4, 1e2)[1:4, ]

Đầu ra là

  1         2         3      4        5
0 0 0.3641945 0.9900484 0.9999 0.999999
1 0 0.3715891 0.0099034 0.0001 0.000001
2 0 0.1857756 0.0000481 0.0000 0.000000
3 0 0.0606681 0.0000002 0.0000 0.000000

Giá trị của nhãn các hàng trong khi giá trị của nhãn các cột. Cột 5 cho thấy cơ hội một yếu tố xuất hiện trong tất cả năm mẫu là rất nhỏ (khoảng một trong một triệu) và về cơ bản không có khả năng hai hoặc nhiều yếu tố xuất hiện trong cả năm mẫu.xs

Nếu bạn muốn xem những cơ hội này nhỏ đến mức nào, hãy nhìn vào logarit của chúng. Cơ sở 10 thuận tiện và chúng tôi không cần nhiều chữ số:

u <- lp(5, 1e4, 1e2)[, 5]
signif(-u[-1] / log(10), 3)

Đầu ra cho chúng ta biết có bao nhiêu số 0 sau dấu thập phân:

    1     2     3     4     5     6     7     8     9    10  ...   97    98    99   100 
  6.0  12.3  18.8  25.5  32.3  39.2  46.2  53.2  60.4  67.6 ... 917.0 933.0 949.0 967.0 

Các số ở hàng trên cùng là giá trị của . Chẳng hạn, cơ hội có chính xác ba giá trị hiển thị trong tất cả năm mẫu được tìm thấy bằng máy tính , đưa ra và thực sự điều này có số không trước chữ số có nghĩa đầu tiên. Khi kiểm tra, giá trị cuối cùng là phiên bản làm tròn của . (tính các cơ hội mà mẫu đầu tiên xuất hiện lại trong bốn mẫu tiếp theo) bằngxexp(u[4])0.000000000000000000143441918967.0967.26(10000100)410967.26.


0

Tôi vừa gặp phải một vấn đề tương tự và, mặc dù tôi cũng không biết liệu đây có phải là giải pháp chính xác hay không, đã tiếp cận nó như thế này:

Bạn quan tâm đến sự xuất hiện của các mặt hàng trong 5 mẫu á mặt hàng trong tổng số mặt hàng. Bạn có thể nghĩ về một chiếc bình có bóng trắng và bóng đen . quả bóng được lấy ra và là xác suất bạn có tất cả các quả bóng trắng trong bộ của bạn. Nếu bạn làm điều này lần (một cách độc lập), tôi sẽ nhân nó: .X10010,000X10,000X100phX5p=ph5

Tôi thậm chí có thể nghĩ thêm một bước nữa và bọc nó xung quanh phân phối nhị thức: Nếu bạn có một đồng xu xuất hiện với xác suất (xác suất bạn có tất cả các mục trong tập hợp của mình) và bạn ném nó lần, thì đó là gì xác suất nhận được cái đầu? .ph55p=(55)ph5(1ph)55=ph5


0

Xác suất mà số lượng vật phẩm xuất hiện trong cả 5 lần lấy mẫu ngẫu nhiên là bao nhiêu?X

Dựa trên những gì Hans nói, bạn muốn luôn nhận được cùng một id trong mỗi mẫu của 100 và 100 id trong số 10000- còn lại . Xác suất làm như vậy đối với một mẫu nhất định được đưa ra bởi hàm siêu bội cho thành công khi rút 100 từ dân số 10000 với trạng thái thành công có thể có: . Đối với 5 mẫu, bạn sẽ lấy .XXXXXP=(XX)(10000X100X)(10000100)P5

Tuy nhiên, chúng tôi giả định rằng việc biết các id được chia sẻ và có cách chọn các id . Vì vậy, câu trả lời cuối cùng của bạn sẽ là .X(10000X)X(10000X)P5


" " là gì? Không thể hiểu câu trả lời này, ít kiểm tra nó hơn, cho đến khi bạn tiết lộ điều đó! x
whuber

Tôi không nhớ, như cách đây 3 năm, nhưng có lẽ là X giống như trong câu hỏi?
Hao Ye

ĐỒNG Ý. Nhưng những gì biện minh cho công thức của bạn? Kiểm tra đơn giản, chẳng hạn như trường hợp (trong đó công thức của bạn cho chúng tôi xác suất là , do đó loại trừ hoàn toàn mọi khả năng khác!), Cho thấy nó không chính xác. X=01
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.