Làm thế nào để bạn quyết định kích thước mẫu khi bỏ phiếu một dân số lớn?


15

Úc hiện đang có một cuộc bầu cử và có thể hiểu được các phương tiện truyền thông báo cáo kết quả thăm dò chính trị mới hàng ngày. Ở một đất nước 22 triệu, bao nhiêu phần trăm dân số sẽ cần được lấy mẫu để có được kết quả hợp lệ?

Có thể việc sử dụng một mẫu quá lớn có thể ảnh hưởng đến kết quả hoặc hiệu lực thống kê tăng đơn điệu với kích thước mẫu?

Câu trả lời:


13

Cỡ mẫu không phụ thuộc nhiều vào quy mô dân số, điều này trái ngược với nhiều người.

Hầu hết các công ty bỏ phiếu sử dụng 400 hoặc 1000 người trong các mẫu của họ.

Có một lý do cho việc này:

Cỡ mẫu 400 sẽ cho bạn khoảng tin cậy +/- 5% 19 lần trong số 20 (95%)

Cỡ mẫu 1000 sẽ cho bạn khoảng tin cậy +/- 3% 19 lần trong số 20 (95%)

Khi bạn đang đo một tỷ lệ gần 50% dù sao đi nữa.

Máy tính này không tệ:

http://www.raosoft.com/samplesize.html


6
Nhưng lưu ý rằng tất cả đều dựa trên việc lấy mẫu từ một quần thể đồng nhất. Nếu bạn có một quần thể không đồng nhất (ví dụ: các tỷ lệ khác nhau cho các nhóm phụ khác nhau, lấy mẫu các phần hiếm của quần thể), thì ước tính phương sai đó không đáng tin cậy lắm. Các ước tính bạn thực sự tính toán ở đây là (tôi nghĩ) cho một dân số mà mẫu của bạn đại diện. Câu hỏi là: dân số này có phải là người bạn thực sự quan tâm không?
xác suất

9

Giả sử rằng bạn muốn biết bao nhiêu phần trăm mọi người sẽ bỏ phiếu cho một ứng cử viên cụ thể (giả sử, , lưu ý rằng theo định nghĩa π là từ 0 đến 100). Bạn lấy mẫu N cử tri một cách ngẫu nhiên để tìm hiểu xem họ sẽ bỏ phiếu như thế nào và khảo sát của bạn về những cử tri N này cho bạn biết rằng tỷ lệ phần trăm là p . Vì vậy, bạn muốn thiết lập một khoảng tin cậy cho tỷ lệ phần trăm thực sự.ππNNp

Nếu bạn giả sử rằng được phân phối bình thường (một giả định có thể hoặc không thể được chứng minh tùy thuộc vào mức độ ' N ' lớn ) thì khoảng tin cậy của bạn đối với π sẽ có dạng sau: C I = [ p - k s d ( p ) , p + k s d ( p ) ] trong đó k là hằng số phụ thuộc vào mức độ tự tin mà bạn muốn (nghĩa là 95% hoặc 99%, v.v.).pNπ

CI=[pksd(p),  p+ksd(p)]
k

Từ góc độ bỏ phiếu, bạn muốn độ rộng của khoảng tin cậy của bạn là 'thấp'. Thông thường, những người thăm dò ý kiến ​​làm việc với biên độ lỗi, về cơ bản là một nửa của CI. Nói cách khác, . MoE=ksd(p)

Dưới đây là cách chúng ta sẽ tính toán : Theo định nghĩa, p = X i / N trong đó, X i = 1 nếu cử tri i bỏ phiếu cho ứng cử viên và 0 khác.sd(p)p=Xi/NXi=1i0

Vì, chúng tôi đã lấy mẫu các cử tri một cách ngẫu nhiên, chúng tôi có thể giả sử rằng là biến ngẫu nhiên iid Bernoulli. Do đó, V một r ( P ) = V ( Σ X iXi Do đó, sd(p)=

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
Bây giờ để ước tính sai số chúng ta cần phải biếtπmà chúng tôi không biết rõ ràng. Nhưng, việc kiểm tra tử số cho thấy ước tính 'tệ nhất' chosd(p)theo nghĩa là chúng ta có độ lệch chuẩn 'lớn nhất' là khiπ=0,5. Do đó, độ lệch chuẩn tồi tệ nhất có thể là: sd(p)=
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%

2

Như một khái quát chung, bất cứ khi nào bạn lấy mẫu một phần của những người trong dân số, bạn sẽ nhận được một câu trả lời khác so với khi bạn lấy lại cùng một số (nhưng có thể là những người khác nhau).

Vì vậy, nếu bạn muốn tìm hiểu có bao nhiêu người ở Úc> = 30 tuổi và nếu phần thực (Chúa nói với chúng tôi) chỉ là 0,4 và nếu chúng tôi hỏi 100 người, con số trung bình chúng tôi có thể mong đợi giả sử chúng là> = 30 là 100 x 0,4 = 40 và độ lệch chuẩn của số đó là +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 hoặc 4,9% (phân phối nhị thức).

Vì căn bậc hai nằm trong đó, khi kích thước mẫu tăng lên 100 lần, độ lệch chuẩn sẽ giảm 10 lần. Vì vậy, nói chung, để giảm độ không đảm bảo của phép đo như thế này với hệ số 10, bạn cần lấy mẫu gấp 100 lần số người. Vì vậy, nếu bạn hỏi 100 x 100 = 10000 người, độ lệch chuẩn sẽ lên tới 49 hoặc, tính theo phần trăm, giảm xuống 0,49%.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.