Phương trình đúng cho hiệp phương sai mẫu không thiên vị


9

Tôi đang tìm phương trình chính xác để tính hiệp phương sai mẫu không thiên vị. Các nguồn Internet khá hiếm về chủ đề này và tất cả đều sử dụng các phương trình khác nhau.

Phương trình rất có thể tôi đã tìm thấy là phương trình này:

qjk=i=1Nwi(i=1Nwi)2i=1Nwi2i=1Nwi(xijx¯j)(xikx¯k).

Từ: https://en.wikipedia.org/wiki/Sample_mean_and_sample_covariance# Weighted_samples

Tất nhiên, bạn phải tính toán mẫu có trọng số (không thiên vị) trước đó.

Tuy nhiên, tôi đã tìm thấy một số công thức khác như:

qjk=1i=1Nwi)1i=1Nwi(xijx¯j)(xikx¯k).

Hoặc thậm chí tôi đã thấy một số mã nguồn và tài liệu học thuật chỉ sử dụng công thức hiệp phương sai tiêu chuẩn nhưng với trung bình mẫu có trọng số thay vì trung bình mẫu ...

Ai đó có thể giúp tôi và làm sáng tỏ?

/ EDIT: trọng số của tôi chỉ đơn giản là số lượng quan sát cho một mẫu trong bộ dữ liệu, do đó weights.sum () = n


1
Những loại trọng lượng bạn đang sử dụng? Trọng lượng có thể có nghĩa là những thứ khác nhau, theo ứng dụng, và câu trả lời chính xác phụ thuộc vào ý nghĩa của chúng. Chẳng hạn, chúng có thể là tốc ký cho tần số (một quan sát có trọng số trong tập dữ liệu để phản ánh sự xuất hiện của nó lần trong dữ liệu) hoặc chúng có thể là tốc ký cho xác suất xuất hiện trong một mẫu (đối với các mẫu ngẫu nhiên có trọng số, chẳng hạn như mẫu phân tầng hoặc phân cấp). fff
whuber

@whuber: Trọng lượng của tôi chỉ đơn giản là số lượng quan sát cho một mẫu trong bộ dữ liệu và do đó: Sum (trọng lượng) = n
gabious

1
Sau đó, câu hỏi của bạn được trả lời ở nhiều nơi tại đây (mặc dù điều đó có thể không rõ ràng ngay lập tức), bao gồm stats.stackexchange.com/questions/58986/ ((giải thích nguyên tắc) cũng như stats.stackexchange.com/questions/6534/ Càng (mà tôi vẫn duy trì là không chính xác, nhưng bạn có thể tự quyết định).
whuber

@whuber: cảm ơn sự giúp đỡ của bạn, nhưng liên kết đầu tiên là về độ lệch chuẩn (bình phương gốc của phương sai) chứ không phải về hiệp phương sai, và liên kết thứ hai hoàn toàn sai (như bạn đã chỉ ra).
rầm rộ

3
Tất nhiên, không có sự khác biệt giữa phương sai và hiệp phương sai: tất cả các hiệp phương sai có thể được lấy là (kết hợp tuyến tính) của phương sai và phương sai, tất nhiên, chỉ là ví dụ cụ thể của hiệp phương sai. (Các nhà toán học gọi sự phân cực mối quan hệ này .)
whuber

Câu trả lời:


18

Tìm thấy giải pháp trong một cuốn sách của năm 1972 (George R. Price, Ann. Hum. Genet., Lond, pp485-490, Mở rộng toán học chọn hiệp phương sai, năm 1972) .

Hiệp phương sai mẫu có trọng số:

Σ=1i=1Nwii=1Nwi(xiμ)T(xiμ)

Và hiệp phương sai mẫu có trọng số không thiên vị được đưa ra bằng cách áp dụng hiệu chỉnh Bessel:

Σ=1i=1Nwi1i=1Nwi(xiμ)T(xiμ)

Trong đó là mẫu có trọng số (không thiên vị) có nghĩa là:μ

μ=i=1Nwixii=1Nwi

Lưu ý quan trọng: điều này chỉ hoạt động nếu các trọng số là "lặp lại" các trọng số, nghĩa là mỗi trọng số biểu thị số lần xuất hiện của một quan sát và trong đó đại diện cho cỡ mẫu thực (tổng số mẫu thực, chiếm trọng lượng).N *i=1Nwi=NN

Tôi đã cập nhật bài viết trên Wikipedia, nơi bạn cũng sẽ tìm thấy phương trình cho phương sai mẫu có trọng số không thiên vị:

https://en.wikipedia.org/wiki/ WEighted_arithatures_mean# WEighted_sample_covariance

Lưu ý thực tế: Tôi khuyên bạn trước tiên nên nhân từng cột và và sau đó thực hiện phép nhân ma trận với để bọc mọi thứ lên và tự động thực hiện tổng kết. Ví dụ: trong mã Python Pandas / Numpy:( x i - μ * ) ( x i - μ * )wi(xiμ)(xiμ)

import pandas as pd
import numpy as np
# X is the dataset, as a Pandas' DataFrame
mean = mean = np.ma.average(X, axis=0, weights=weights) # Computing the weighted sample mean (fast, efficient and precise)
mean = pd.Series(mean, index=list(X.keys())) # Convert to a Pandas' Series (it's just aesthetic and more ergonomic, no differenc in computed values)
xm = X-mean # xm = X diff to mean
xm = xm.fillna(0) # fill NaN with 0 (because anyway a variance of 0 is just void, but at least it keeps the other covariance's values computed correctly))
sigma2 = 1./(w.sum()-1) * xm.mul(w, axis=0).T.dot(xm); # Compute the unbiased weighted sample covariance

Đã thực hiện một vài kiểm tra độ tỉnh táo bằng cách sử dụng bộ dữ liệu không trọng số và bộ dữ liệu có trọng số tương đương, và nó hoạt động chính xác.


@whuber: không đúng, nhưng nó phụ thuộc vào "trọng số" của bạn được gán cho. Trong trường hợp của tôi, đó là số lượng quan sát (còn gọi là "lặp lại"), vì vậy phương trình này hoạt động chính xác. Trong trường hợp của bạn với các trọng số được chuẩn hóa hoặc cũng có thể nếu các trọng số là phương sai của mỗi phép đo của một quan sát, được gọi là "độ tin cậy", thì nó không hoạt động và nên sử dụng phương trình khác trên wiki (mà btw không sử dụng làm việc với "lặp lại" trọng lượng!).
rầm rộ

@whuber: dù sao nếu bạn có một cách tiếp cận khái quát hơn, tôi sẽ rất vui khi nghe về nó. Tôi đã thu thập dữ liệu trên toàn bộ internet và trang web này và không tìm thấy một phương trình nào có thể hoạt động cho các trọng số lặp lại ngoại trừ cái này tôi đã đăng ở trên!
rầm rộ

3
Không thể có một công thức chung: nếu các trọng số không phải là tần số tích phân (ví dụ: nếu chúng đã được chuẩn hóa thành tổng thể), thì bạn đã mất tất cả thông tin về tổng kích thước mẫu , do đó không thể ước tính được hệ số hiệu chỉnh . Tuy nhiên, với điều kiện là các trọng số không tính đến sự thống nhất, công thức của bạn sẽ tạo ra một câu trả lời. Đó là lý do tại sao điều quan trọng là phải làm rõ rằng công thức của bạn không phải là công thức thường được áp dụng và phải là tần số thực tế chứ không phải bất cứ điều gì khác. n / ( n - 1 ) w inn/(n1)wi
whuber

3
@whuber: Cảm ơn vì lời giải thích, đó là điều tôi lo sợ (không có phương trình thống nhất và mất hệ số hiệu chỉnh). Tôi đã thêm một ghi chú vào câu trả lời của tôi để mô tả rõ hơn về điều này. Tôi cũng sẽ thêm dòng của bạn về yếu tố sửa chữa trên bài viết Wikipedia.
rầm rộ

@whuber Đã qua các chủ đề cũ. Tôi tự hỏi làm thế nào tuyên bố của bạn rằng "không thể có một công thức phổ quát" phù hợp với ví dụ như một câu trả lời được chấp nhận trong chủ đề này: stats.stackexchange.com/questions/47325 . Bạn có nghĩ rằng câu trả lời là sai (khi cho rằng có một biểu thức không thiên vị cho bất kỳ trọng số nào)?
amip
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.