Phương sai trọng số, một lần nữa


17

Phương sai trọng số không thiên vị đã được giải quyết ở đâynhững nơi khác nhưng dường như vẫn có một sự nhầm lẫn đáng ngạc nhiên. Dường như có một sự đồng thuận đối với công thức được trình bày trong liên kết đầu tiên cũng như trong bài viết Wikipedia . Điều này cũng giống như công thức được sử dụng bởi R, Mathematica và GSL (nhưng không phải MATLAB). Tuy nhiên, bài viết Wikipedia cũng chứa dòng sau đây trông giống như một kiểm tra độ tỉnh táo tuyệt vời cho việc thực hiện phương sai có trọng số:

Ví dụ: nếu các giá trị {2,2,4,5,5,5} được rút ra từ cùng một phân phối, thì chúng ta có thể coi tập hợp này là một mẫu không có trọng số hoặc chúng ta có thể coi nó là mẫu có trọng số {2,4, 5} với các trọng số tương ứng {2,1,3} và chúng ta sẽ nhận được kết quả tương tự.

Các tính toán của tôi đưa ra giá trị 2.1667 cho phương sai của các giá trị ban đầu và 2.9545 cho phương sai trọng số. Tôi có nên thực sự mong đợi chúng giống nhau không? Tại sao hay tại sao không?


6
câu hỏi này không thực sự là về việc thực hiện, nhưng lý thuyết đằng sau nó
nhầm

Câu trả lời:


15

Có, bạn nên mong đợi cả hai ví dụ (không trọng số so với trọng số) sẽ cho bạn kết quả như nhau.

Tôi đã thực hiện hai thuật toán từ bài viết Wikipedia.

Cái này hoạt động:

Nếu tất cả các được rút ra từ cùng một phân phối và trọng số nguyên biểu thị tần suất xuất hiện trong mẫu, thì công cụ ước lượng không thiên vị của phương sai dân số có trọng số được đưa ra bởi:xTôiwTôi

S2 = =1V1-1ΣTôi= =1NwTôi(xTôi-μ*)2,

Tuy nhiên, cái này (sử dụng trọng số phân đoạn) không hoạt động với tôi:

Nếu mỗi xTôi được rút ra từ phân phối Gaussian với phương sai 1/wTôi , công cụ ước tính không thiên vị của phương sai dân số có trọng số được đưa ra bởi:

S2 = =V1V12-V2ΣTôi= =1NwTôi(xTôi-μ*)2

Tôi vẫn đang nghiên cứu lý do tại sao phương trình thứ hai không hoạt động như dự định.

/ EDIT: Tìm thấy lý do tại sao phương trình thứ hai không hoạt động như tôi nghĩ: bạn chỉ có thể sử dụng phương trình thứ hai nếu bạn có trọng số bình thường hoặc phương sai ("độ tin cậy") và nó không thiên vị, bởi vì nếu bạn không sử dụng trọng số "lặp lại" (đếm số lần quan sát được quan sát và do đó nên được lặp lại trong các phép toán của bạn), bạn sẽ mất khả năng đếm tổng số quan sát và do đó bạn không thể sử dụng hệ số hiệu chỉnh.

Vì vậy, điều này giải thích sự khác biệt trong kết quả của bạn bằng cách sử dụng phương sai trọng số và không trọng số: tính toán của bạn bị sai lệch.

Do đó, nếu bạn muốn có một phương sai trọng số không thiên vị, chỉ sử dụng trọng số "lặp lại" và sử dụng phương trình đầu tiên tôi đã đăng ở trên. Nếu điều đó là không thể, tốt, bạn không thể giúp nó.

Tôi cũng đã cập nhật bài viết của Wikipedia nếu bạn muốn biết thêm thông tin: http://en.wikipedia.org/wiki/ WEighted_arithatures_mean # Weighted_sample_variance

Và một bài viết được liên kết về hiệp phương sai trọng số không thiên vị (trong thực tế là cùng một phương sai do Nhận dạng phân cực ): Phương trình đúng cho hiệp phương sai mẫu không thiên vị


Sau khi đọc và suy nghĩ rất nhiều về điều này, tôi vẫn không hiểu được ý nghĩa trực quan hoặc ví dụ về thuật ngữ "trọng số độ tin cậy". Bạn có thể vui lòng giải thích một chút về điều đó?
Peter

Các trọng số độ tin cậy của @Peter là các trọng số được chuẩn hóa, ví dụ: giới hạn trong khoảng từ 0 đến 1 hoặc -1 và 1. Chúng đại diện cho một tần số (ví dụ: 0,1 có nghĩa là mẫu này được nhìn thấy 10% thời gian so với tất cả các mẫu khác). Tôi đã không phát minh ra thuật ngữ, nó có thể được tìm thấy trong các ấn phẩm. Đối với các trọng số lặp lại thì ngược lại, mỗi trọng số đại diện cho số lần xuất hiện, số lượng thẻ (ví dụ: 10 nếu mẫu được quan sát 10 lần).
gabious

Điều này gây nhầm lẫn bởi vì những gì bạn gọi là trọng số lặp lại thường được gọi là trọng số tần số , nhưng tôi nghĩ rằng tôi đã nhận được sự khác biệt. Nó phụ thuộc vào bình thường hóa, phải không?
Peter

Không, trọng số tần số là một tên thay thế cho trọng số độ tin cậy. Đối với trọng số lặp lại, đó là số lần xuất hiện, không phải tần suất. Với trọng số lặp lại, hoàn toàn không có sự bình thường hóa, đó là điểm: miễn là bạn bình thường hóa trọng lượng của mình, bạn sẽ mất tần số cơ bản, do đó bạn hoàn toàn không thể thiên vị các tính toán của mình. Cách duy nhất là giữ tổng số lần xuất hiện. Nếu bạn thực sự muốn sử dụng trọng số tần số, tôi nghĩ rằng nếu bạn lưu trữ trước tổng số N lần xuất hiện, bạn có thể chuyển đổi qua lại để lặp lại trọng số bằng cách nhân trọng số tần số với N, thì không sao.
gabious

Và nếu trọng số của bạn là 1 / trọng số phương sai, bạn sẽ gọi chúng như thế nào? Đó sẽ là "trọng lượng đáng tin cậy"?
Tom Wenseleers
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.