Làm thế nào chính xác các nhà thống kê đồng ý sử dụng (n-1) làm công cụ ước tính không thiên vị cho phương sai dân số mà không cần mô phỏng?


67

Công thức tính toán phương sai có trong mẫu số:(n1)

s2=i=1N(xix¯)2n1

Tôi đã luôn tự hỏi tại sao. Tuy nhiên, đọc và xem một vài video hay về "tại sao", có vẻ như, là một công cụ ước tính không thiên vị tốt về phương sai dân số. Trong khi đánh giá thấp và đánh giá quá cao phương sai dân số.n ( n - 2 )(n1)n(n2)

Điều tôi tò mò muốn biết, là trong thời đại không có máy tính, sự lựa chọn này được thực hiện như thế nào? Có một bằng chứng toán học thực tế chứng minh điều này hay chính điều này hoàn toàn theo kinh nghiệm và thống kê đã thực hiện RẤT NHIỀU phép tính bằng tay để đưa ra "lời giải thích tốt nhất" vào thời điểm đó?

Làm thế nào mà các nhà thống kê đưa ra công thức này vào đầu thế kỷ 19 với sự trợ giúp của máy tính? Hướng dẫn sử dụng hoặc có nhiều hơn nó đáp ứng mắt?


13
Tôi giả sử bạn muốn nói " không có sự trợ giúp của máy tính". Câu trả lời là - có lẽ không có gì đáng ngạc nhiên - bằng cách sử dụng đại số. Việc tạo đạo hàm khá đơn giản và ở nhiều nơi, thông thường các sinh viên thống kê lấy nó làm bài tập / học nó khi chưa tốt nghiệp.
Glen_b

Tôi nghĩ rằng điều này mang lại một lời giải thích khá hay: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


Tôi đã chỉnh sửa công thức của bạn để sử dụng và làm trong mẫu số dành cho phương sai mẫu (ký hiệu Latinh) chứ không phải phương sai dân số (ký hiệu Hy Lạp). ˉ x n - 1s2x¯n1
Alexis

Câu trả lời:


40

Việc hiệu chỉnh được gọi là hiệu chỉnh của Bessel và nó có bằng chứng toán học. Cá nhân tôi đã được dạy một cách dễ dàng: sử dụng là cách bạn sửa lỗi sai lệch của (xem tại đây ).E [ 1n1E[1n1n(xix¯)2]

Bạn cũng có thể giải thích sự điều chỉnh dựa trên khái niệm mức độ tự do, mô phỏng không cần thiết lắm.


15
Bằng chứng thay thế số 3 có một lời giải thích trực quan đẹp mà ngay cả một giáo dân cũng có thể hiểu được. Ý tưởng cơ bản là giá trị trung bình mẫu không giống với trung bình dân số. Các quan sát của bạn tự nhiên sẽ gần với trung bình mẫu hơn so với trung bình dân số và điều này cuối cùng đánh giá thấp những điều đó thuật ngữ với thuật ngữ. Điều này có lẽ rõ ràng với hầu hết mọi người nhưng tôi chưa bao giờ nghĩ về "trực giác" về lý do tại sao phương sai mẫu thiên vị lại bị sai lệch cho đến bây giờ. Tôi chỉ học các bằng chứng chính thức. (xiμ)2(xix¯)2
WetlabStudent

2
Ngoài ra còn có một cách tiếp cận hình học tại sao phải sửa với n-1 (được giải thích rất độc đáo trong Saville và Wood: Phương pháp thống kê: Phương pháp hình học). Đặt nó ngắn gọn: Một mẫu của n có thể được coi là một không gian dữ liệu n chiều. Các vectơ điểm mẫu thêm vào một vectơ quan sát có thể được phân tách thành vectơ mô hình với kích thước p tương ứng với tham số p và vectơ lỗi với kích thước np. Sự phá vỡ Pythagore tương ứng của vectơ lỗi có np bình phương mà trung bình là thước đo cho sự thay đổi.
giordano

Tôi sẽ cung cấp cho bạn một liên kết đẹp có chứa một lời giải thích ngắn gọn: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

Bạn có thể giải thích tại sao trong bằng chứng (thay thế 3) chúng tôi giả sử rằng cả phương sai đúng và sai lệch được tính bằng 's không? Vấn đề của các phương sai khác nhau phát sinh khi chúng ta có một dân số (với phương sai thực sự) và một mẫu (với phương sai sai lệch). Nhưng nếu chúng ta tính toán phương sai trên cùng một dữ liệu, cụ thể là , tại sao chúng phải khác nhau? Ở đó, chúng tôi nghĩ rằng là một phương sai thực sự được tính bằng cách sử dụng chính xác giống như một . Tôi không thể đồng ý với bằng chứng này. Xin hãy giúp đỡ, tôi đang thiếu gì? n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

Hầu hết các bằng chứng tôi đã thấy đủ đơn giản để Gauss (tuy nhiên ông đã làm điều đó) có lẽ thấy nó khá dễ để chứng minh.

Tôi đã tìm kiếm một dẫn xuất trên CV mà tôi có thể liên kết với bạn (có một số liên kết đến bằng chứng ngoài trang web, bao gồm ít nhất một trong các câu trả lời ở đây), nhưng tôi chưa tìm thấy một ở đây trên CV trong một Một vài tìm kiếm, vì vậy để hoàn thiện, tôi sẽ đưa ra một cách đơn giản. Với sự đơn giản của nó, thật dễ dàng để thấy mọi người sẽ bắt đầu sử dụng cái thường được gọi là hiệu chỉnh của Bessel như thế nào .

Điều này lấy làm kiến ​​thức giả định và giả định rằng một vài thuộc tính phương sai cơ bản đầu tiên được biết đến.E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
thuộc tính nào làm cho thuật ngữ biến mất? 2x¯i=1nxi
Ciprian Tomoiagă

3
Nó không biến mất. Bạn có nhận thấy dấu hiệu của thuật ngữ cuối thay đổi?
Glen_b

1
(+1) Gần đây tôi đã nghe một bằng chứng tuyệt vời rằng cá nhân tôi thấy trực quan hơn. Phương sai mẫu với hệ có thể được biểu thị lại dưới dạng trung bình của tất cả các khác biệt bình phương giữa tất cả các điểm cặp. Bây giờ lưu ý rằng các cặp trong đó cùng một điểm nhập hai lần đều bằng 0 và điều này làm sai lệch biểu thức. Có vẻ hợp lý để điều chỉnh sai lệch bằng cách loại trừ tất cả các cặp này khỏi tổng kép và chỉ tính trung bình trên các phần còn lại. Điều này mang lại sự điều chỉnh của Bessel. 1/n
amip nói rằng Phục hồi Monica

1
Không, đừng bận tâm, đã tìm ra nó. , vì vậy bạn chỉ đang áp dụng cùng một danh tính mà bạn đã đề cập ở trên cho cả hai điều khoản trong dòng 3.V[x¯]=V[x]n
tel

1
Bất kỳ biến thể iid nào có cùng giây thứ hai. Chúng tôi đi từ việc nói về tất cả trong số họ đến chỉ thảo luận về một trong số họ. Bạn có thể dễ dàng lấy (và một số người làm) hoặc hoặc ... nhưng tôi đã lấy thứx1x2xni
Glen_b

37

Theo Thế giới toán học của Weisstein, lần đầu tiên được chứng minh bởi Gauss vào năm 1823. Tài liệu tham khảo là tập 4 của Gauss 'Werke, có thể được đọc tại https://archive.org/details/werkecarlf04gausrich . Các trang có liên quan dường như là 47-49. Có vẻ như Gauss đã điều tra câu hỏi và đưa ra một bằng chứng. Tôi không đọc tiếng Latin, nhưng có một bản tóm tắt tiếng Đức trong văn bản. Trang 103-104 giải thích những gì anh ấy đã làm (Chỉnh sửa: Tôi đã thêm một bản dịch thô):

Allein da man nicht berechtigt ist, die s Richts als sie wirklich ambitzen. [Nhưng vì người ta không có quyền đối xử với các giá trị có thể xảy ra nhất như thể chúng là giá trị thực, nên người ta có thể dễ dàng thuyết phục bản thân rằng người ta luôn phải thấy rằng lỗi có thể xảy ra nhất và sai số trung bình là quá nhỏ, và do đó, kết quả đã cho sở hữu độ chính xác cao hơn những gì họ thực sự có.]

từ đó có vẻ như người ta đã biết rằng phương sai mẫu là một ước tính sai lệch của phương sai dân số. Bài báo tiếp tục nói rằng sự khác biệt giữa hai loại thường bị bỏ qua vì không quan trọng nếu cỡ mẫu đủ lớn. Sau đó, nó nói:

Der Verfasser hat daher dieen Gegenstand eine ambondere Untersuchung unterworfen, die zu einem sehr Merkwuerdigen hoechst einfachen Kết quả là mũ gefuehrt. Man braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, um ihn in die richtigen zu verwandeln, Nur mit

πρπ

zu Multiplicieren, wo die Anzahl der beobachtungen (số lượng quan sát) und die Anzahl der unbekannten groents (số lượng chưa biết) bedeutet. [Do đó, tác giả đã thực hiện một nghiên cứu đặc biệt về đối tượng này dẫn đến một kết quả rất kỳ lạ và cực kỳ đơn giản. Cụ thể, người ta chỉ cần nhân sai số trung bình được tìm thấy bởi quá trình sai lầm ở trên với (biểu thức đã cho) để thay đổi nó thành đúng, trong đó là số lượng quan sát và là số lượng không xác định.]πρπρ

Vì vậy, nếu đây thực sự là lần đầu tiên tìm thấy sự hiệu chỉnh, thì có vẻ như nó đã được tìm thấy bởi một phép tính thông minh của Gauss, nhưng mọi người đã biết rằng cần phải điều chỉnh một số thứ, vì vậy có lẽ ai đó đã tìm thấy nó theo kinh nghiệm trước đó . Hoặc có thể các tác giả trước đó không quan tâm để có được câu trả lời chính xác vì dù sao họ cũng đang làm việc với các tập dữ liệu khá lớn.

Tóm tắt: hướng dẫn sử dụng, nhưng mọi người đã biết rằng trong mẫu số không hoàn toàn đúng.n


Nếu ai đó có thể cung cấp một bản dịch tiếng Đức, điều đó sẽ tốt đẹp. Tôi không đọc tiếng Đức.
Faheem Mitha

2
Có, Google Dịch không hoạt động tốt vì lỗi chính tả của tôi! Tôi sẽ thêm vào một nỗ lực dịch thuật; đó sẽ là một cách tốt để thực hành tiếng Đức của tôi.
Flounderer

14

Đối với tôi một phần của trực giác là

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

Đó là,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Trên thực tế việc chứng minh phương trình trên cần một chút đại số (đại số này rất giống với câu trả lời của @ Glen_b ở trên). Nhưng giả sử đó là sự thật, chúng ta có thể sắp xếp lại để có được:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Đối với tôi, một phần trực giác khác là sử dụng thay vì giới thiệu sai lệch. Và độ lệch này chính xác bằng .X¯μE[(X¯μ)2]=σ2n


12

Hầu hết các câu trả lời đã giải thích rất công phu nhưng ngoài những câu trả lời đó có một minh họa đơn giản mà người ta có thể thấy hữu ích:

Giả sử bạn được cho rằng và ba số đầu tiên là:n=4

8,4,6 , _

Bây giờ số thứ tư có thể là bất cứ điều gì vì không có ràng buộc. Bây giờ hãy xem xét tình huống khi bạn được cho rằng và , sau đó nếu ba số đầu tiên là: thì số thứ tư phải là .ˉ x = 6 8 , 4 , 6 6n=4x¯=68,4,66

Điều này có nghĩa là nếu bạn biết giá trị và , thì giá trị không có tự do. Do đó, cho chúng ta một công cụ ước lượng không thiên vị.ˉ x n t h n - 1n1x¯nthn1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.