xấp xỉ bình thường với phân phối nhị thức: tại sao np> 5?


9

Gần như mọi cuốn sách văn bản thảo luận về xấp xỉ bình thường đối với phân phối nhị thức đều đề cập đến quy tắc ngón tay cái rằng phép tính gần đúng có thể được sử dụng nếu và . Thay vào đó, một số sách đề xuất . Hằng số giống nhau thường xuất hiện trong các cuộc thảo luận về thời điểm hợp nhất các ô trong -test. Không có văn bản nào tôi tìm thấy đưa ra lời biện minh hoặc tham chiếu cho quy tắc này.n ( 1 - p ) 5np5n(1p)55 χ 2np(1p)55χ2

Trường hợp 5 hằng số này đến từ đâu? Tại sao không phải 4 hay 6 hay 10? Trường hợp này quy tắc ban đầu được giới thiệu ở đâu?


5
Đó là một quy tắc của ngón tay cái. Nếu nó nghiêm ngặt, bạn sẽ không cần ngón tay cái.
Hồng Ooi

2
Tôi cũng đã thấy và . n p ( 1 - p ) > 10np(1p)>9np(1p)>10
Glen_b -Reinstate Monica

Câu trả lời:


7

Một số khả năng được cung cấp bởi bài viết Wikipedia về phân phối Binomial, trong phần về xấp xỉ bình thường , hiện bao gồm các nhận xét sau (nhấn mạnh của tôi):

Một quy tắc thường được sử dụng là cả hai giá trị và phải lớn hơn 5. Tuy nhiên, số lượng cụ thể thay đổi từ nguồn này sang nguồn khác và phụ thuộc vào mức độ gần đúng của một người muốn.n ( 1 - p )npn(1p)

Bây giờ, điều này được liên kết với việc đảm bảo rằng xấp xỉ bình thường nằm trong giới hạn pháp lý cho một biến nhị thức, .x [ 0 , n ]xN(μ,σ)x[0,n]

Để giải thích rõ ràng này, nếu chúng ta parameterize mong muốn khả năng phủ sóng trong điều khoản của một z-score , sau đó chúng ta có Sử dụng các khoảnh khắc nhị thức và , các ràng buộc trên yêu cầu Vì vậy, đối với phương pháp này, sẽ tương ứng với xác suất bao phủ của trong đó là CDF tiêu chuẩn thông thườngz>0 Μ=np σ 2 =np(1-p)phút

μ±zσ[0,n]zσmin[μ,nμ]z2min[μ2σ2,(nμ)2σ2]
μ=npσ2=np(1p)z2=5Φ[
min[p,1p]nz2
z2=5Φ
Φ[5]Φ[5]97.5%
Φ.

Vì vậy, trong phạm vi xác suất bảo hiểm này là "đẹp" và 5 là một số tròn đẹp ... có thể đưa ra một số biện minh có lẽ? Tôi không có nhiều kinh nghiệm với các văn bản xác suất, vì vậy không thể nói mức "5" phổ biến như thế nào, so với các "số cụ thể" khác để sử dụng cụm từ của Wikipedia. Cảm giác của tôi là không có gì thực sự đặc biệt về 5 và Wikipedia cho thấy 9 cũng khá phổ biến (tương ứng với "khá" là 3).z


4

Không phải là một giải thích đầy đủ, nhưng thật thú vị khi quay trở lại Cochran 1952 Annals of Math Thống kê "The thử nghiệm của sự tốt lành của sự phù hợp" ( http://www.jstor.org/stable/2236678 ), Phần II (" Một số khía cạnh của việc sử dụng thử nghiệm thực tế "), đó là sự cổ xưa khá đáng kính trong lĩnh vực này ... Cochran thảo luận về lịch sử của nền tảng lý thuyết của thử nghiệm (Pearson 1900, Fisher 1922, 1924), nhưng không chạm vào theo quy tắc của ngón tay cái cho đến đoạn văn sau ... [nhấn mạnh thêm]χ2

7. Kỳ vọng tối thiểu . Vì x2 đã được thiết lập là phân phối giới hạn của X2 trong các mẫu lớn, nên theo thông lệ, trong các ứng dụng của thử nghiệm, số lượng dự kiến ​​nhỏ nhất trong bất kỳ lớp nào sẽ là 10 hoặc (với một số người viết) 5. ... Điều này chủ đề gần đây đã được thảo luận mạnh mẽ giữa các nhà tâm lý học [17], [18]. Các số 10 và 5 dường như được chọn tùy ý. Một vài cuộc điều tra đưa ra một số ánh sáng về sự phù hợp của quy tắc. Cách tiếp cận là kiểm tra phân phối chính xác của X2, khi một số hoặc tất cả các kỳ vọng là nhỏ, bằng phương pháp toán học hoặc từ các thí nghiệm lấy mẫu.

Các cuộc điều tra rất ít và phạm vi hẹp, như dự kiến ​​vì công việc thuộc loại này tốn nhiều thời gian. Do đó, các khuyến nghị được đưa ra dưới đây có thể yêu cầu sửa đổi khi có bằng chứng mới.

Để giải quyết một lúc, vấn đề điều tra hành vi của X2 khi kỳ vọng nhỏ là một ví dụ về cả một nhóm vấn đề có liên quan đến thống kê được áp dụng. Trong các ứng dụng, việc sử dụng kết quả của cơ thể lý thuyết trong các tình huống mà chúng ta biết hoặc nghi ngờ mạnh mẽ là một số giả định trong lý thuyết là không hợp lệ. Do đó, tài liệu chứa các nghiên cứu về phân bố t khi dân số cha mẹ không bình thường và hiệu suất của ước tính hồi quy tuyến tính khi hồi quy trong dân số thực sự là phi tuyến. May mắn thay cho các ứng dụng, kết quả của lý thuyết đôi khi vẫn thực sự đúng ngay cả khi một số giả định không giữ được. Thực tế này có xu hướng làm cho số liệu thống kê trở thành một chủ đề khó hiểu hơn so với toán học thuần túy,


1

Ngoài các câu trả lời xuất sắc đã được đăng, tôi nghĩ có thể hữu ích khi có một hình dung khám phá sự phân bố tỷ lệ quan sát được cho các giá trị và khác nhau .np

Để tạo ra các biểu đồ dưới đây, tôi đã lấy mẫu từ một thử nghiệm Bernoulli với xác suất và lặp lại quá trình này 10.000 lần. Sau đó, tôi đã tạo ra một biểu đồ về tỷ lệ quan sát được từ mỗi 10.000 thí nghiệm đó.np

Sơ đồ biểu đồ đã nói

Nói một cách trực quan, có vẻ như khá hợp lý. Mặc dù khi dường như vẫn có một số lần cắt xảy ra với và . Khi bạn nhận được , tác động có vẻ khá nhỏ.np5n= =50np= =5,5np= =6,5np= =7,5

Cũng lưu ý rằng những âm mưu sẽ là đối xứng vì nếu chúng ta mất mới giá trị của .p'p'= =(1-p)

Mã Python để tạo các ô. Bạn có thể sử dụng điều này để điều chỉnh và nếu bạn muốn tự thử nghiệm.np

import matplotlib.pyplot as plt
import numpy as np
np.random.seed(20190915)


def make_hists(axs, n):
    proportions = np.linspace(0.01, 0.19, len(axs))
    for i, prop in enumerate(proportions):
        # Draw n samples 10,000 times
        x = np.random.rand(n, 10_000) < prop
        means = x.mean(axis=0)
        axs[i].hist(means, bins=np.linspace(0, 0.5, n//2))
        axs[i].set_xlim([0, 0.5])
        axs[i].set_yticklabels([])
        ylim_mean = np.mean(axs[i].get_ylim())
        axs[i].text(-0.08, ylim_mean * 3/2, f'$p={prop:.2f}$', va='center')
        axs[i].text(-0.08, ylim_mean * 2/3, f'$np={n * prop:.1f}$', va='center')
    axs[0].set_title(f'$n={n}$')

def main():
    f, axs = plt.subplots(10, 2, sharex=True, figsize=(12, 8))
    make_hists(axs[:, 0], 50)
    make_hists(axs[:, 1], 250)
    f.suptitle(
        'Histograms of 10,000 sample proportions, varying $p$ and $n$',
        fontsize=14
    )
    plt.show()

main()

0

Quy tắc cung cấp một tiêu chí đảm bảo rằng p không gần bằng 0 cũng như 1. Nếu gần 0 hoặc 1, phân phối kết quả sẽ không phải là một sự kết hợp tốt với phân phối bình thường.

Bạn có thể thấy một bằng chứng hình ảnh của cùng ở đây


2
Vâng tôi đồng ý. Nhưng cũng sẽ cung cấp một tiêu chí như vậy. Vậy tại sao 5? np(1-p)>10
jochen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.