Độ chính xác của dữ liệu thu được thông qua một mẫu ngẫu nhiên là gì?


8

Tôi là người mới chơi thống kê, vì vậy nếu tôi đưa ra bất kỳ giả định sai lầm nào ở đây xin vui lòng cho tôi biết.

Có một dân số N. (Ví dụ Ncó thể là 1.000.000.) Một số người là tóc đỏ. Tôi lấy một mẫu nngười (nói 10,) và thấy rằng jhọ là những người tóc đỏ.

Tôi có thể nói gì về tỷ lệ chung của những người tóc đỏ trong dân số? Ý tôi là, xấp xỉ tốt nhất của tôi có lẽ là j/n, nhưng độ lệch chuẩn của xấp xỉ đó là gì?

Nhân tiện, thuật ngữ được chấp nhận cho điều này là gì?


Tại sao chúng ta luôn luôn chọn trên gingers? :)
Brandon Bertelsen

Câu trả lời:


8

Bạn có thể coi đây là một thử nghiệm nhị thức - các thử nghiệm của bạn đang lấy mẫu "tóc đỏ" hoặc "không đọc". Trong trường hợp đó, bạn có thể xây dựng khoảng tin cậy cho tỷ lệ mẫu của bạn ( ) như được ghi lại trên Wikipedia:j/n

Về cơ bản, khoảng tin cậy 95% nói rằng, sử dụng cùng một thuật toán lấy mẫu, nếu bạn lặp lại 100 lần này, tỷ lệ thực sẽ nằm trong khoảng đã nêu 95 lần.

Cập nhật Nhân tiện , tôi nghĩ thuật ngữ bạn đang tìm kiếm có thể là lỗi tiêu chuẩn là độ lệch chuẩn của tỷ lệ được lấy mẫu. Trong trường hợp này, đó là trong đóplà tỷ lệ ước tính của bạn. Lưu ý rằng khintăng, lỗi tiêu chuẩn sẽ giảm.p(1-p)npn


4
@ars: Mọi thứ đều chính xác và được nêu rõ. Nhưng có một điều còn thiếu: độ lệch chuẩn của "xấp xỉ tốt nhất" j / n phụ thuộc vào tỷ lệ thực sự của mụn đầu đỏ, chứ không phải ước tính. Vấn đề, tất nhiên, là chúng ta không biết tỷ lệ thực sự. Nhưng thực tế là lỗi tiêu chuẩn không thực sự bằng độ lệch chuẩn của phép tính gần đúng trừ khi ước tính xảy ra là chính xác. Tôi biết bạn không cần phải nhắc nhở về sự tinh tế này, cũng như hầu hết các độc giả, nhưng nó khá phù hợp với câu hỏi ban đầu.
whuber

jnjn

2
@ cool-RR: ars đúng về lỗi tiêu chuẩn. Vấn đề là chính lỗi tiêu chuẩn là một ước tính về mức độ chính xác của j / n thống kê ước tính tỷ lệ thực. Ví dụ, giả sử 10% tất cả mọi người là tóc đỏ. Sau đó, trong nhiều trường hợp có thể xảy ra j = 0 khi n = 10. Bạn sẽ nhận được SE của Sqrt (0 (1-0) / 10) = 0. Điều này rõ ràng đánh giá thấp độ chính xác thực tế của thống kê p = j / n = 0/10. Độ chính xác thực sự là Sqrt (0.10 (1-0.90) / n), mặc dù bạn không biết điều đó!
whuber

j= =0n= =10j= =0n= =10

1
@ cool-RR: đối với các mẫu nhỏ, hãy sử dụng khoảng Agresti-Coull được chỉ định trong liên kết Wikipedia trên các khoảng tin cậy. Dựa trên những quan sát của bạn, bạn sẽ có được khoảng 95% cho ước tính. Sau đó, những gì bạn sẽ biết, dựa trên những gì bạn quan sát được, vốn có trong định nghĩa của CI 95%.
ars

0

nN

SE^= =N-nNp^q^n,

p^j/nq^= =1-p^

N-nN

pnnp>10j= =0SESE^

njNp

p(1-p)1/412np^q^nn= =1,111SE^±N

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.