Kết hợp hai ma trận hiệp phương sai


11

Tôi đang tính toán hiệp phương sai của một phân phối song song và tôi cần kết hợp các kết quả phân tán vào trên Gaussian số ít. Làm thế nào để tôi kết hợp cả hai?

Nội suy tuyến tính giữa hai gần như hoạt động, nếu chúng được phân phối và kích thước tương tự nhau.

Wikipedia cung cấp một forumla ở phía dưới để kết hợp nhưng có vẻ không đúng; hai phân phối phân phối giống hệt nhau nên có cùng hiệp phương sai, nhưng công thức ở cuối trang sẽ nhân đôi hiệp phương sai.

Có cách nào để kết hợp hai ma trận không?


3
Công thức Wikipedia trả lời câu hỏi của bạn, Matt: bạn có thể không nhận thấy rằng đó là một công thức một phần mà sau đó bạn cần chia cho kích thước mẫu.
whuber

1
Tôi đã tìm ra điều này ngay bây giờ, với sự giúp đỡ của bạn - nếu bạn đưa ra câu trả lời tôi sẽ đánh dấu nó là đã trả lời.
Matt Kemp

Câu trả lời:


12

Câu hỏi này đưa ra rất nhiều trong nhiều vỏ bọc khác nhau. Những gì phổ biến với họ là

Làm cách nào tôi có thể kết hợp các thống kê dựa trên khoảnh khắc đã được tính toán từ các tập hợp con khác nhau của dữ liệu của tôi?

Ứng dụng đơn giản nhất liên quan đến dữ liệu đã được chia thành hai nhóm. Bạn biết kích thước nhóm và ý nghĩa của nhóm. Xét riêng về bốn đại lượng này, ý nghĩa tổng thể của dữ liệu là gì?

Các ứng dụng khác khái quát hóa từ phương tiện đến phương sai, độ lệch chuẩn, ma trận hiệp phương sai, độ lệch và thống kê đa biến; và có thể liên quan đến nhiều nhóm dữ liệu. Lưu ý rằng nhiều trong số các đại lượng này là sự kết hợp hơi phức tạp của các khoảnh khắc: ví dụ độ lệch chuẩn là căn bậc hai của tổ hợp bậc hai của khoảnh khắc thứ nhất và giây (bình phương trung bình và trung bình).

Tất cả các trường hợp như vậy được xử lý dễ dàng bằng cách giảm các khoảnh khắc khác nhau thành tổng, vì các khoản tiền rõ ràng và dễ dàng kết hợp: chúng được thêm vào. Về mặt toán học, nó thuộc về điều này: bạn có một lô dữ liệuđã được tách thành các nhóm kích thước khác nhau:. Hãy gọinhóm thứ. Theo định nghĩa, thời điểm thứcủa bất kỳ lô dữ liệulà trung bình củaX=(x1,x2,,xn)j1,j2,,jg(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)iX(i)=(xji+1,xji+2,,xji+1)ky1,,yjkquyền hạn thứ,

μk(y)=(y1k+y2k++yjk)/j.

Rõ ràng là tổng của sức mạnh thứ . Do đó, đề cập đến việc phân tách dữ liệu trước đây của chúng tôi thành các nhóm con , chúng tôi có thể chia một tổng số sức mạnh thành các nhóm tổng, thu đượcjμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg1+1k+xj1++jg1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

Chia cho thể hiện khoảnh khắc thứ của toàn bộ lô về thời điểm thứ của các nhóm con của nó.nkk

Trong ứng dụng hiện tại, các mục trong ma trận hiệp phương sai, tất nhiên, là hiệp phương sai, có thể biểu thị theo các khoảnh khắc thứ hai đa biến và khoảnh khắc đầu tiên. Phần chính của phép tính được đưa ra là: ở mỗi bước bạn sẽ tập trung vào hai thành phần cụ thể của dữ liệu đa biến của bạn; hãy gọi họ là và . Các số bạn đang xem có dạngxy

((x1,y1),(x2,y2),,(xn,yn)),

chia tay như trước thành nhóm . Đối với mỗi nhóm, bạn biết tổng số sản phẩm trung bình của : đây là khoảnh khắc đa biến , . Để kết hợp các giá trị nhóm này, bạn sẽ nhân chúng với kích thước nhóm, cộng các kết quả đó và chia tổng số cho .gxiyi(1,1)μ(1,1)n

Để áp dụng phương pháp này, bạn cần suy nghĩ trước : không thể kết hợp, giả sử hiệp phương sai nếu bạn chỉ biết hiệp phương sai và kích thước nhóm con: bạn cũng cần biết phương tiện của các nhóm con (vì phương tiện có liên quan theo một cách thiết yếu trong tất cả các công thức hiệp phương sai), hoặc một cái gì đó đại số có thể giảm theo phương tiện. Bạn cũng có thể cần phải quan tâm đến bất kỳ hằng số nào xuất hiện trong các công thức; Cái bẫy chính cho người không sẵn sàng là nhầm lẫn một "hiệp phương mẫu" (liên quan đến tổng các sản phẩm chia cho ) với "hiệp phương sai dân số" (trong đó phép chia là ). Điều này không giới thiệu bất cứ điều gì mới; bạn chỉ cần nhớ nhân hệ số mẫu với (hoặc hiệp phương sai nhóm vớin n - 1 j i - 1 n j in1nn1ji1 ) để phục hồi tổng, thay vì bằng (hoặc ).nji


Ồ, vâng: về câu hỏi hiện tại. Công thức được đưa ra trong bài viết Wikipedia được đưa ra dưới dạng phương tiện nhóm (khoảnh khắc đầu tiên) và tổng số sản phẩm của nhóm . Như tôi đã mô tả ở trên, chúng sẽ được kết hợp bằng cách thêm chúng và sau đó điều chỉnh kết quả với một phép chia để có được hiệp phương sai. Phân chia cuối cùng của không được hiển thị.n


Tôi hơi bối rối về định nghĩa của khoảnh khắc thứ k. Bạn đang giả sử dữ liệu có nghĩa là không?
reschu

@reschu Bạn dường như đang nghĩ về những khoảnh khắc trung tâm . Để đảm bảo rằng bài đăng này sẽ được hiểu chính xác, tôi đã xác định ý của tôi là " khoảnh khắc." Định nghĩa xuất hiện ngay trước công thức đầu tiên. kth
whuber

Có thể xấu! Tôi đã trộn lẫn những khoảnh khắc 'trung tâm' và 'thô'. Cảm ơn đã làm rõ!
reschu

Tôi nghĩ "để biết phương tiện của các kích thước nhóm con" trong đoạn áp chót nên đọc "để biết phương tiện của các nhóm con" thay vào đó? (Tôi ngần ngại tự mình chỉnh sửa điều này vì tôi không bận tâm nghiên cứu câu trả lời một cách cẩn thận)
Juho Kokkala

@Juho Bạn khá đúng. Cảm ơn bạn đã nhận thấy điều đó!
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.