Sự khác biệt giữa N và N-1 trong tính toán phương sai dân số là gì?


50

Tôi đã không hiểu tại sao có NN-1trong khi tính toán phương sai dân số. Khi chúng ta sử dụng Nvà khi chúng ta sử dụng N-1?

nhập mô tả hình ảnh ở đây
Nhấn vào đây để xem kích thước thật

Nó nói rằng khi dân số rất lớn, không có sự khác biệt giữa N và N-1 nhưng nó không cho biết tại sao lại có N-1 lúc ban đầu.

Chỉnh sửa: Xin đừng nhầm lẫn với nn-1được sử dụng để ước tính.

Edit2: Tôi không nói về ước tính dân số.


5
Bạn có thể tìm thấy câu trả lời ở đó: stats.stackexchange.com/questions/16008/ . Về cơ bản, bạn nên sử dụng N-1 khi bạn ước tính phương sai và N khi bạn tính toán chính xác.
ocram

@ocram, theo như tôi biết khi ước tính phương sai chúng ta sử dụng n hoặc n-1.
ilhan

Nếu bạn muốn công cụ ước tính của bạn không thiên vị, thì bạn nên sử dụng n-1. Lưu ý rằng khi n lớn, đây không phải là vấn đề.
ocram

2
Không có câu trả lời nào dưới đây được viết dưới dạng suy luận dân số hữu hạn. Từ hữu hạn là hoàn toàn quan trọng ở đây; đó là những gì cuốn sách của Kish nói về (và bất cứ ai đang nói "Cuốn sách sai" chỉ đơn giản là không biết đủ về các khảo sát và mẫu dân số hữu hạn). Các thương thay vì chỉ làm cho tính toán đẹp hơn và obviates sự cần thiết để đường xung quanh các yếu tố như . Câu trả lời đầy đủ cho câu hỏi này sẽ phải đưa ra suy luận lấy mẫu trong đó các chỉ số mẫu là ngẫu nhiên và các giá trị của các đặc điểm quan sát được CỐ ĐỊNH. Không ngẫu nhiên. Đặt trong đá. N 1 - 1 / N yN1N11/Ny
StasK

2
Điều này không thực sự thêm vào các câu trả lời khác. Các ước số khác nhau đưa ra các câu trả lời khác nhau, hoặc thậm chí là sự khác biệt giảm dần với N, không phải là vấn đề. Câu hỏi là khi nào và tại sao nên sử dụng ước số.
Nick Cox

Câu trả lời:


26

n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N là kích thước dân số và là kích thước mẫu. Câu hỏi đặt ra tại sao phương sai dân số là độ lệch bình phương trung bình so với giá trị trung bình thay vì lần. Đối với vấn đề đó, tại sao dừng lại ở đó? Tại sao không nhân độ lệch bình phương trung bình với hoặc hoặc chẳng hạn?n(N1)/N=1(1/N)12/N117/Nexp(1/N)

Có một lý do tốt để không. Bất kỳ số liệu nào tôi vừa đề cập sẽ phục vụ tốt như một cách để định lượng một "sự lây lan điển hình" trong dân chúng. Tuy nhiên, nếu không có kiến ​​thức trước về quy mô dân số, sẽ không thể sử dụng một mẫu ngẫu nhiên để tìm một công cụ ước tính không thiên vị của một con số như vậy. Chúng ta biết rằng phương sai mẫu , nhân với độ lệch bình phương trung bình so với trung bình mẫu bằng , là một ước lượng không thiên vị của phương sai dân số thông thường khi lấy mẫu thay thế. (Không có vấn đề gì với việc thực hiện hiệu chỉnh này, bởi vì chúng ta biết !) Do đó, phương sai mẫu sẽ là một ước lượng sai lệch của bất kỳ bội số của phương sai dân số trong đó bội số đó, chẳng hạn nhưn 1 - 1 / N(n1)/nn11/N, không được biết chính xác trước.

Vấn đề về một số sai lệch chưa biết sẽ lan truyền đến tất cả các thử nghiệm thống kê sử dụng phương sai mẫu, bao gồm các thử nghiệm t và thử nghiệm F. Trên thực tế, việc chia cho bất kỳ thứ gì ngoài trong công thức phương sai dân số sẽ yêu cầu chúng ta thay đổi tất cả các bảng thống kê thống kê t và thống kê F (và nhiều bảng khác), nhưng việc điều chỉnh sẽ phụ thuộc vào quy mô dân số. Không ai muốn phải tạo bảng cho mọi có thể ! Đặc biệt là khi không cần thiết.NNN

Như một vấn đề thực tế, khi là đủ nhỏ rằng việc sử dụng thay vì trong công thức làm cho một sự khác biệt, bạn thường làm biết quy mô dân số (hoặc có thể đoán nó chính xác) và bạn có khả năng sẽ dùng đến nhiều đáng kể hơn nhỏ dân số sửa chữa khi làm việc với các mẫu ngẫu nhiên (không thay thế) từ dân số. Trong tất cả các trường hợp khác, ai quan tâm? Sự khác biệt không thành vấn đề. Vì những lý do này, được hướng dẫn bởi những cân nhắc sư phạm (cụ thể là tập trung vào các chi tiết quan trọng và che đậy những chi tiết không có), một số văn bản thống kê giới thiệu tuyệt vời thậm chí không bận tâm để dạy sự khác biệt: họ chỉ đơn giản cung cấp một công thức phương sai duy nhất ( chia choN - 1 N N nNN1NN hoặc là trường hợp có thể).n


24

Thay vì đi sâu vào toán học, tôi sẽ cố gắng diễn đạt nó bằng những từ đơn giản. Nếu bạn có toàn bộ dân số theo ý của bạn thì phương sai của nó ( phương sai dân số ) được tính bằng mẫu số N. Tương tự, nếu bạn chỉ có mẫu và muốn tính toán phương sai của mẫu này , bạn sử dụng mẫu số N(n của mẫu, trong trường hợp này). Trong cả hai trường hợp, lưu ý, bạn không ước tính bất cứ điều gì: giá trị trung bình mà bạn đo được là giá trị trung bình thực và phương sai bạn tính từ giá trị trung bình đó là phương sai thực sự.

Bây giờ, bạn chỉ có mẫu và muốn suy luận về trung bình và phương sai chưa biết trong dân số. Nói cách khác, bạn muốn ước tính . Bạn lấy trung bình mẫu của bạn để ước tính trung bình dân số (vì mẫu của bạn là đại diện), OK. Để có được ước tính về phương sai dân số, bạn phải giả vờ rằng ý nghĩa đó thực sự có nghĩa là dân số và do đó nó không phụ thuộc vào mẫu của bạn nữa kể từ khi bạn tính toán nó. Để "hiển thị" rằng bây giờ bạn coi nó là cố định, bạn bảo lưu một (bất kỳ) quan sát nào từ mẫu của bạn để "hỗ trợ" giá trị trung bình: bất cứ mẫu nào của bạn có thể xảy ra, một quan sát dành riêng luôn có thể mang giá trị trung bình cho giá trị mà bạn ' đã có và tin rằng không nhạy cảm để lấy mẫu dự phòng. Một quan sát dành riêng là "-1"N-1 trong tính toán phương sai ước tính.

Tưởng tượng rằng bạn bằng cách nào đó biết ý nghĩa dân số thực sự, nhưng muốn ước tính phương sai từ mẫu. Sau đó, bạn sẽ thay thế giá trị trung bình thực đó thành công thức cho phương sai và áp dụng mẫu số N: không cần "-1" ở đây vì bạn biết giá trị trung bình thực, bạn đã không ước tính nó từ cùng một mẫu.


Nhưng câu hỏi của tôi không liên quan gì đến ước tính. Đó là về phương sai dân số điện toán; với N và N-1. Tôi không nói về n và n-1.
ilhan

1
@ilhan, trong bài trả lời của tôi, tôi đã sử dụng Ncho cả N và n. Nlà một kích thước của tổng số trong tay, dân số hoặc mẫu. Để tính toán phương sai dân số , bạn phải có dân số theo ý của bạn. Nếu bạn chỉ có mẫu, bạn có thể tính toán phương sai của mẫu này hoặc tính phương sai ước tính dân số của mẫu này . Không có cách nào khác.
ttnphns

Tôi có một thông tin đầy đủ về dân số của tôi; tất cả các giá trị đều biết Tôi không quan tâm đến việc ước tính.
ilhan

1
Nếu bạn có dân số thì hãy sử dụng N. N-1 sẽ là phi logic để sử dụng.
ttnphns

1
@ilhan - Không thể bình luận trực tiếp về bình luận của bạn cho bài đăng của ttnphns, nhưng đây là lời giải thích về những gì bạn nhìn thấy trong cuốn sách và cách bạn nên suy luận. Ký hiệu 'S' khi được sử dụng để ám chỉ phương sai luôn đề cập đến phương sai mẫu. Sigma chữ Hy Lạp được sử dụng để chỉ phương sai dân số. Đó là lý do tại sao bạn thấy cuốn sách đề cập đến S = N * sigma / (N - 1)
Arvind

9

Nói chung, khi một người chỉ có một phần dân số, tức là một mẫu, bạn nên chia cho n-1. Có một lý do chính đáng để làm như vậy, chúng ta biết rằng phương sai mẫu, nhân với độ lệch bình phương trung bình so với trung bình mẫu bằng (n − 1) / n, là một ước lượng không thiên vị của phương sai dân số.

Bạn có thể tìm thấy một bằng chứng cho thấy công cụ ước tính của phương sai mẫu không thiên vị ở đây: https : // ec economtheoryblog.com/2012/06/28/latexlatexs2/

Hơn nữa, nếu người ta áp dụng công cụ ước tính của phương sai dân số, đó là phiên bản của công cụ ước tính phương sai chia cho n, trên một mẫu thay vì dân số, ước tính thu được sẽ sai lệch.


Điều này dường như trả lời một câu hỏi khác liên quan đến việc ước tính phương sai dân số. Có vẻ như thông tư: không phải câu trả lời này được xác định dựa trên giả định một quy ước cụ thể để xác định phương sai dân số ở nơi đầu tiên?
whuber

7

Trước đây, có một lập luận rằng bạn nên sử dụng N cho phương sai không suy luận nhưng tôi không khuyến nghị điều đó nữa. Bạn nên luôn luôn sử dụng N-1. Khi kích thước mẫu giảm, N-1 là một sự điều chỉnh khá tốt cho thực tế là phương sai mẫu sẽ thấp hơn (bạn có nhiều khả năng lấy mẫu gần mức cao nhất của phân phối --- xem hình). Nếu cỡ mẫu thực sự lớn thì nó không thành vấn đề.

Một giải thích khác là dân số là một công trình lý thuyết không thể đạt được. Do đó, luôn luôn sử dụng N-1 vì bất cứ điều gì bạn đang làm, tốt nhất là ước tính phương sai dân số.

Ngoài ra, bạn sẽ thấy N-1 cho các ước tính phương sai từ đây trở đi. Bạn sẽ không bao giờ gặp phải vấn đề này ... ngoại trừ trong bài kiểm tra khi giáo viên của bạn có thể yêu cầu bạn phân biệt giữa suy luận và biện pháp phương sai không suy luận. Trong trường hợp đó, đừng sử dụng câu trả lời của ai hoặc của tôi, hãy tham khảo câu trả lời của ttnphns.

Hình 1

Lưu ý, trong hình này, phương sai phải gần bằng 1. Hãy xem nó thay đổi bao nhiêu với cỡ mẫu khi bạn sử dụng N để ước tính phương sai. (đây là "thiên vị" được đề cập đến ở mọi nơi)


1
Xin vui lòng, cho tôi biết tại sao N "không được đề nghị nữa" với dân số thực sự trong tay? Dân số không phải luôn luôn là một cấu trúc lý thuyết. Đôi khi mẫu của bạn là một quần thể thực sự cho bạn.
ttnphns

1
ilhan, N có thể được sử dụng cho mẫu của bạn hoặc nó có thể được sử dụng cho quy mô dân số, nếu có. Trong hầu hết các trường hợp, sự phân biệt giữa N lớn và n nhỏ phụ thuộc vào chủ đề. Ví dụ: n có thể là số trường hợp trong mỗi điều kiện trong một thử nghiệm trong khi N có thể là số cho thử nghiệm. Cả hai đều là mẫu. Không có quy tắc toàn cầu.
Giăng

1
ttnphns, nó phụ thuộc vào ý nghĩa của bạn theo dân số. Tôi sẽ lập luận rằng nếu toàn bộ dân số của bạn quá nhỏ đến mức N-1 có vấn đề thì việc tính toán độ lệch bình phương trung bình có hữu ích từ xa không. Hiển thị tất cả các giá trị, hình dạng và phạm vi của chúng. Hơn nữa, toàn bộ lập luận cũ rằng bạn thực sự có N bậc tự do nếu bạn không suy luận là điều đáng nghi ngờ. Bạn đã mất một khi bạn tính giá trị trung bình, rằng bạn cần tính toán phương sai.
John

1
@ John, nếu bạn tính trung bình trong dân số, bạn chỉ cần nêu thực tế về tham số, vì vậy bạn không có mức độ tự do. Nếu bạn tính toán nó trong mẫu và muốn suy luận về dân số, thì bạn đã chi tiêu một. Ngoài ra, tôi có thể có dân số với N = 1. Với mẫu số N-1, có vẻ như tham số như phương sai không tồn tại cho nó. Nó là vô nghĩa.
ttnphns

3
@ilhan Xin vui lòng, xem xét cập nhật câu hỏi của bạn (như bạn đã làm) và trỏ đến phiên bản cập nhật thay vì để lại những bình luận không mang tính xây dựng như vậy. Mọi thứ đều gây tranh cãi, đặc biệt là khi bản thân câu hỏi thiếu một số bối cảnh. Ở đây có vẻ như vấn đề đứng từ việc xác định dân số thực sự là gì.
chl

4

Phương sai dân số là tổng độ lệch bình phương của tất cả các giá trị trong dân số chia cho số lượng giá trị trong dân số. Tuy nhiên, khi chúng ta ước tính phương sai của dân số từ một mẫu, chúng ta gặp phải vấn đề là độ lệch của các giá trị mẫu so với giá trị trung bình của mẫu trung bình thấp hơn một chút so với độ lệch của các giá trị mẫu đó từ ( không rõ) có nghĩa là dân số thực sự. Điều đó dẫn đến một phương sai được tính toán từ mẫu nhỏ hơn một chút so với phương sai dân số thực sự. Sử dụng ước số n-1 thay vì n sửa cho sự đánh giá thấp đó.


@ Bunnenburg, nếu bạn có câu trả lời cho câu hỏi của bạn. Hãy rõ ràng với tôi bây giờ, những gì bạn có? Đó là một sự nhầm lẫn lớn đối với tôi là tốt.
Bilal Para

để bù đắp cho phương sai ít hơn mà chúng ta nhận được, tại sao người ta không thể sử dụng n-2, n-3, v.v.? Tại sao n-1 nói riêng? Tại sao không phải là hằng số ... ???
Saravanabalagi Ramachandran

@SaravanabalagiRamachandran Sự khác biệt thay đổi theo kích thước mẫu và do đó, một hằng số sẽ không phục vụ. Việc hiệu chỉnh bằng n-1 hoạt động gần hơn so với các hiệu ứng khác mà bạn đề cập.
Michael Lew
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.