Làm thế nào để tính toán với xác suất nhỏ và mẫu lớn?


8

Có thể tính toán hoặc tính gần đúng xác suất của một điều cực kỳ khó xảy ra một lần trên một mẫu lớn, nghĩa là, trong trường hợp xác suất nhỏ hơn lỗi máy?

Ví dụ, tôi đã cố gắng tính toán khả năng gần đúng của một người nào đó chia sẻ bộ gen của tôi. Rõ ràng một bộ gen cá nhân có thể được nén một cách dễ dàng đến khoảng 4 MB (2 ^ 25 bit). Vì vậy, cơ hội của một trong số 7 tỷ người trên hành tinh chia sẻ bộ gen của tôi là về:

(1-12225)(7×109) .

Hoặc sử dụng phương pháp bài toán Sinh nhật , khả năng có ít nhất hai người có bộ gen giống hệt nhau (hãy bỏ qua cặp song sinh và vv) là một cái gì đó như:

(7×109)!(22257×109)(2225)(7×109)

Vấn đề ở đây là những con số quá nhỏ hoặc quá lớn đến nỗi không thể đoán được chúng nằm ở đâu. Vì vậy, có cách nào gần đúng những tính toán này hoặc tương tự?

Tôi nhận ra rằng trong một số trường hợp, các giả định đằng sau các vấn đề có thể được đưa ra bằng nhiều bậc độ lớn, nhưng thậm chí có thể xấp xỉ với "nhiều khả năng hơn là không" sẽ rất thú vị.


2
Logarit là thích hợp trong các trường hợp như vậy và, nếu không đủ, phép tính xấp xỉ Stirling giúp bạn đủ gần với giá trị thực để đánh giá độ lớn của đại lượng.
Tây An

Câu trả lời:


8

Trong vật lý, một bài toán Fermi là một bài tập yêu cầu bạn ước tính thứ tự độ lớn. Bạn có thể làm tương tự cho xác suất. Với thực hành, trực giác của bạn nên cải thiện.

Như Xi'an nhận xét, bạn có thể sử dụng logarit. Có lẽ bạn không thể nhìn thấy trong nháy mắt, nhưng bạn có thể thấy rằng (hoặc ), trong đó ngụ ý nó. 2 25 » 10 10 log 2 10 332225»1010225»1010đăng nhập21033

Thay vì sử dụng các công thức phức tạp để tính toán các giá trị chính xác mà bạn không cần, hãy sử dụng các ước tính đơn giản để tính toán. Ví dụ: xác suất có ít nhất một người khác có bộ gen của bạn (bỏ qua cặp song sinh) nhiều nhất là số người dự kiến ​​có cùng bộ gen, một sản phẩm đơn giản mà bạn có thể ước tính là rất nhỏ. Tương tự, xác suất một số cặp người có bộ gen giống nhau nhiều nhất là số lượng người dự kiến ​​có cùng bộ gen, khoảng12225(7×109)

12(7×109)22225

Nhân tiện, tôi không chấp nhận mô hình xác suất này cho bộ gen. Tôi chỉ sử dụng mô hình của bạn cho ví dụ. Mô hình này sẽ dự đoán rằng sự giống nhau về di truyền thường thấy giữa anh chị em là không thể về mặt thiên văn.


Vâng, tôi biết mô hình là sai. Nhưng anh chị em không sinh đôi chỉ có khả năng chia sẻ khoảng một nửa số gen của họ (ngoài những gen chung cho tất cả mọi người), vì vậy tôi không thực sự chắc chắn ý của bạn về sự giống nhau về di truyền giữa anh chị em ..
naught 101

Tôi không chắc ý của bạn là "khoảng một nửa" vì bộ gen được cho là bị nén. Có những nơi có sự lựa chọn, và những nơi có nhiều hơn . Dù sao, những nơi mà chúng không có bản sao của nhiễm sắc thể của cùng bố mẹ dù sao cũng có thể giống nhau, vì vậy, hơn một nửa số gen của chúng sẽ giống nhau và nếu bạn giả vờ rằng mỗi bộ gen là ngẫu nhiên, bạn sẽ ước tính rằng cơ hội của điều này là thấp về mặt thiên văn. Ngoài ra, giả sử không có chéo. Sau đó, anh chị em chỉ cần giành được lần lật đồng xu để có cùng bộ gen chứ không phải . 2246225
Douglas Zare

Điều thú vị, nhưng đây là tất cả một chút tiếp tuyến cho câu hỏi, mà mô hình quá đơn giản của tôi chỉ là một ví dụ cơ bản. Nếu bạn cảm thấy muốn tiếp tục cuộc thảo luận về di truyền học, chúng ta có thể làm điều đó trong phòng trò chuyện ..
naught 101

1
Đây là tất cả các vật liệu cơ bản. Tôi chỉ không muốn hiển thị các tính toán trong mô hình này mà không chỉ ra rằng mô hình đó là xấu.
Douglas Zare

3

Tôi nghĩ rằng điều này dẫn đến một vấn đề ước tính các đuôi cực của phân phối xác suất mà không có cỡ mẫu cực lớn cần thiết để có được bất kỳ hoặc chỉ một số lượng nhỏ các giá trị quan sát được ở các giá trị cực đoan đó. Cách duy nhất để làm điều này là bằng cách giả sử một mô hình tham số mà "tự động" giả định một hình dạng cho các đuôi phân phối. Nhưng nếu bạn có lý do cho mô hình xác suất thì bạn có thể lấy ước tính bạn tìm kiếm bằng cách khớp mật độ từ họ tham số và sử dụng nó để tích hợp trên vùng đuôi để ước tính xác suất nhỏ đó. Nếu giả định tham số sai, ước tính có thể bị loại bỏ (theo thứ tự cường độ).


Thật tuyệt, tôi đã không nghĩ về nó theo cách đó. Tôi không biết tôi sẽ sử dụng loại mô hình nào cho loại vấn đề này.
ness101
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.