Một thước đo của variance khác nhau từ Ma trận hiệp phương sai?


16

Nếu dữ liệu là 1d, phương sai cho thấy mức độ mà các điểm dữ liệu khác nhau. Nếu dữ liệu là đa chiều, chúng ta sẽ có một ma trận hiệp phương sai.

Có một biện pháp nào đưa ra một số lượng duy nhất các điểm dữ liệu khác nhau như thế nào đối với dữ liệu đa chiều không?

Tôi cảm thấy rằng có thể đã có nhiều giải pháp, nhưng tôi không chắc thuật ngữ chính xác được sử dụng để tìm kiếm chúng.

Có lẽ tôi có thể làm một cái gì đó như cộng các giá trị riêng của ma trận hiệp phương sai, điều đó nghe có hợp lý không?


2
Xác định ma trận hiệp phương sai. Tôi sẽ đăng một câu trả lời xác thịt hơn sớm.
dùng603

5
Dấu vết được sử dụng rất thường xuyên. Ví dụ, trong PCA, một phần của phương sai được giải thích bởi mỗi thành phần là một phần của "tổng phương sai" được định nghĩa là dấu vết của ma trận hiệp phương sai. @ user603 Mong câu trả lời của bạn.
amip nói Phục hồi lại

2
adding up the eigenvalues of the covariance matrixbằng với dấu vết amip được đề cập ở trên.
ttnphns

Các biện pháp sẽ được sử dụng để làm gì?
HelloGoodbye

@Hello Goodbye hi thực sự tôi có một số dữ liệu [ồn ào] với các nhãn và tôi giả sử trước rằng các điểm dữ liệu [true] trong cùng một danh mục không nên khác nhau nhiều. Tôi đang tìm cách để đo mức độ khác biệt của các điểm dữ liệu trong mỗi danh mục, để tôi có thể biết được mức độ ồn của dữ liệu đối với từng danh mục.
dontloo

Câu trả lời:


15

. bằng mọi cách, hãy kiểm tra nguồn gốc).

Trong bất kỳ tình huống mà các mô hình đa biến các dữ liệu có thể được mô tả bởi một phân phối elip variate, suy luận thống kê sẽ, theo định nghĩa, giảm đến vấn đề phù hợp (và đặc trưng) một k vector vị trí variate (nói θ ) và k bằng k đối xứng ma trận xác định bán tích cực (nói ΣkkθkkΣ ) với dữ liệu. Vì lý do tôi giải thích dưới đây (nhưng mà bạn đã giả định là cơ sở) nó sẽ thường có ý nghĩa hơn để phân hủy thành một phần hình dạng (một ma trận SPSD có cùng kích thước như Σ ) chiếm hình dạng của các đường nét mật độ phân phối đa biến của bạn và vô hướng σ SΣΣσS thể hiện quy mô của các đường viền này.

Trong dữ liệu đơn biến ( ), Σ , ma trận hiệp phương sai của dữ liệu của bạn là một đại lượng vô hướng và, như sẽ làm theo từ các cuộc thảo luận dưới đây, các thành phần hình dáng của Σ là 1 để Σk=1ΣΣΣ bằng quy mô thành phần của nó luôn và không mơ hồ là có thể.Σ=σS

Trong dữ liệu đa biến, nhiều lựa chọn chức năng chia tỷ lệ là có thể. Một người đặc biệt (σS ) nổi bật trong việc có một quyền sở hữu mong muốn quan trọng. Điều này sẽ làm cho nó trở thành lựa chọn ưa thích của yếu tố tỷ lệ trong bối cảnh của các gia đình hình elip.σS=|ΣΣ|1/k


Nhiều vấn đề trong thống kê MV liên quan đến lập dự toán của một ma trận tán xạ, được xác định là một hàm (al) đối xứng bán tích cực nhất định trong R k × k và thỏa mãn:ΣRk×k

(cho người không ít ma trận A và vectơ b ). Ví dụ, ước tính cổ điển của hiệp phương sai thỏa mãn (0) nhưng không có nghĩa là duy nhất.

(0)Σ(AX+b)=AΣ(X)A
Ab

Trong sự hiện diện của dữ liệu phân elip, nơi mà tất cả những đường nét mật độ là elip xác định bởi ma trận hình dạng giống nhau, cho đến nhân bởi một đại lượng vô hướng, đó là tự nhiên để xem xét các phiên bản bình thường của có dạng:Σ

VS=Σ/S(Σ)

Trong đó là hàm 1-honogenous thỏa mãn:S

(1)S(λΣ)=λS(Σ)

cho tất cả . Sau đó, V S được gọi là thành phần hình dạng của ma trận tán xạ (trong ma trận hình dạng ngắn) và σ S = S 1 / 2 ( Σ ) được gọi là thành phần quy mô của ma trận tán xạ. Ví dụ về các vấn đề ước lượng đa biến trong đó hàm mất chỉ phụ thuộc vào Σ thông qua thành phần hình dạng V S của nó bao gồm các thử nghiệm về tính hình cầu, PCA và CCA trong số các loại khác.λ>0VSσS=S1/2(Σ)ΣVS

Tất nhiên, có nhiều hàm chia tỷ lệ có thể, vì vậy điều này vẫn để ngỏ câu hỏi về cái gì (nếu có) của một số lựa chọn của hàm chuẩn hóa theo nghĩa nào đó là tối ưu. Ví dụ:S

  • (ví dụ: đề xuất của @amoeba trong bình luận của anh ấy bên dưới câu hỏi của OP. Xem thêm [1], [2], [3])S=tr(Σ)/k
  • ([4], [5], [6], [7], [8])S=|Σ|1/k
  • (mục đầu tiên của ma trận hiệp phương sai)Σ11
  • (eigenvalue đầu tiên của Σ )λ1(Σ)Σ

Tuy nhiên, là hàm chia tỷ lệ duy nhất mà ma trận Thông tin Fisher cho các ước tính tỷ lệ và hình dạng tương ứng, trong các họ bình thường không có triệu chứng cục bộ, là đường chéo khối (đó là các thành phần tỷ lệ và hình dạng của vấn đề ước lượng là trực giao không đối xứng) [0 ]. Điều này có nghĩa, trong số những thứ khác, thang đo chức năng S = | Σ | 1 / k là lựa chọn duy nhất của S mà thông số không đặc tả của σ S không gây ra bất kỳ mất hiệu quả nào khi thực hiện suy luận trênS=|Σ|1/kS=|Σ|1/kSσS .VS

Tôi không biết bất kỳ đặc tính tối ưu tương đối mạnh mẽ nào cho bất kỳ lựa chọn nào có thể có của thỏa mãn (1).S

  • [0] Paindaveine, D., Một định nghĩa chính tắc về hình dạng, Số liệu thống kê và xác suất, Tập 78, Số 14, ngày 1 tháng 10 năm 2008, Trang 2240-2247. Liên kết không mong muốn
  • [1] Dumbgen, L. (1998). Trên chức năng M của Tyler phân tán trong chiều cao, Ann. Inst. Thống kê. Môn Toán. 50, 471 bóng491.
  • [2] Ollila, E., TP Hettmansperger và H. Oja (2004). Phương pháp dấu hiệu đa biến affine tương đương. Bản in, Đại học Jyvaskyla.
  • [3] Tyler, DE (1983). Tính mạnh mẽ và hiệu quả của ma trận tán xạ, Biometrika 70, 411 xăng420.
  • [4] Dumbgen, L. và DE Tyler (2005). Trên các thuộc tính phân tích của một số Chức năng M đa biến, Scand. J. Thống kê. 32, 247 Từ264.
  • [5] Hallin, M. và D. Paindaveine (2008). Các xét nghiệm dựa trên xếp hạng tối ưu cho tính đồng nhất của tán xạ, Ann. Thống kê., Để xuất hiện.
  • [6] Salibian-Barrera, M., S. Van Aelst và G. Willems (200 6). Phân tích thành phần chính dựa trên các công cụ ước tính MM đa biến với bootstrap nhanh và mạnh, J. Amer. Thống kê. PGS. 101, 1198 Vang1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila và H. O ja (2006). Các hàm ảnh hưởng và hiệu quả của mối tương quan chính tắc và ước tính vectơ dựa trên ma trận phân tán và hình dạng, J. Multivariate Anal. 97, 359 bóng384.
  • [8] Tatsuoka, KS và DE Tyler (2000). Về tính độc đáo của S-Functional và M-function theo phân phối phi tuyến, Ann. Thống kê. 28, 1219 Từ1243.

1
Ngoài ra, là một lựa chọn kỳ lạ cho thành phần tỷ lệ vì nó không phải là bất biến xoay vòng ...Σ11
amip nói rằng Rebstate Monica

Cảm ơn câu trả lời có chủ ý! tôi sẽ mất một chút thời gian để hiểu đầy đủ về nó :)
dontloo

@amoeba: áp dụng cho XΣ . Tôi thả XXX trong phần còn lại của câu trả lời vì không có sự nhầm lẫn nào. Tôi đồng ý rằng nó hơi vụng về nên giờ tôi sử dụng Σ ( XXX . Tôi đồng ý với nhận xét thứ hai của bạn. Bởi cùng một mã thông báo λ 1 ( Σ ) không phải là bất biến đối với việc định cỡ lại. Theo nghĩa này, ràng buộc đồng nhất được đặt trên S là một thanh rất thấp. Σ(XX)λ1(Σ)S
dùng603

Chờ đợi; Tại sao người ta muốn hoặc mong đợi thành phần tỷ lệ là bất biến để thay đổi kích thước ??
amip nói rằng Phục hồi lại

Xin lỗi, tôi có nghĩa là nếu bạn sử dụng là chức năng mở rộng quy mô thì kết quả là ma trận hình không phải là equivariant để rescaling. λ1(Σ)
dùng603

10

Phương sai của biến vô hướng được định nghĩa là độ lệch bình phương của biến so với giá trị trung bình của nó:

Var(X)=E[(XE[X])2]

Một khái quát cho phương sai có giá trị vô hướng cho các biến ngẫu nhiên có giá trị véc tơ có thể thu được bằng cách giải thích độ lệch là khoảng cách Euclide :

Vars(X)=E[XE[X]22]

Biểu thức này có thể được viết lại thành

Vars(X)=E[(XE[X])(XE[X])]=E[i=1n(XiE[Xi])2]=i=1nE[(XiE[Xi])2]=i=1nVar(Xi)=i=1nCii

Trong đó là ma trận hiệp phương sai. Cuối cùng, điều này có thể được đơn giản hóa đểC

Vars(X)=tr(C)

đó là dấu vết của ma trận hiệp phương sai.


4

Mặc dù dấu vết của ma trận hiệp phương sai, tr (C) , cung cấp cho bạn thước đo tổng phương sai, nhưng nó không tính đến mối tương quan giữa các biến.

Nếu bạn cần một số đo phương sai tổng thể lớn khi các biến của bạn độc lập với nhau và rất nhỏ khi các biến có tương quan cao, bạn có thể sử dụng định thức của ma trận hiệp phương sai, | C |.

Xin vui lòng xem bài viết này để làm rõ hơn.


4

Nếu bạn chỉ cần một số, thì tôi đề xuất một giá trị riêng lớn nhất của ma trận hiệp phương sai. Đây cũng là một phương sai được giải thích của thành phần chính đầu tiên trong PCA. Nó cho bạn biết tổng số phương sai có thể được giải thích nếu bạn giảm kích thước của vectơ xuống một. Xem câu trả lời này về toán SE.

Ý tưởng là bạn thu gọn vectơ của bạn thành một chiều bằng cách kết hợp tất cả các biến tuyến tính thành một chuỗi. Bạn kết thúc với vấn đề 1d.

Phương sai được giải thích có thể được báo cáo theo% về tổng phương sai. Trong trường hợp này, bạn sẽ thấy ngay lập tức nếu có nhiều mối tương quan tuyến tính giữa các chuỗi. Trong một số ứng dụng, con số này có thể là 80% và cao hơn, ví dụ như mô hình đường cong lãi suất trong tài chính. Nó có nghĩa là bạn có thể xây dựng một tổ hợp tuyến tính của các biến giải thích 80 phương sai của tất cả các biến.


3

H(X)=p(x)logp(x)dx.

p(x)μΣxuất phát từ dữ liệu, theo wikipedia , entropy vi phân là sau đó,

H(X)=12log((2πe)ndet(Σ))
where n is the number of dimensions. Since multivariate Gaussian is the distribution that maximizes the differential entropy for given covariance, this formula gives an entropy upper bound for an unknown distribution with a given variance.

And it depends on the determinant of the covariance matrix, as @user603 suggests.


This answer doesn't seem to be in the same spirit as the question. Covariances and variances are properties of any distribution (although they might be infinite or undefined in some cases), whereas this answer focuses on an exceedingly special case of a multivariate Normal distribution. It therefore doesn't apply to most of the situations implicitly envisioned in the question. Could you perhaps elaborate on the sense in which your answer could be construed as providing some useful guidance in the general case where the data aren't necessarily Normal?
whuber

@whuber thanks for the suggestion i guess maybe i should rewrite Gaussian as "the distribution that maximizes the entropy given a variance"? then the result will become some upper bound. what do you think?
dontloo

That sounds like it's going somewhere useful and more general.
whuber

1
I guess there are many ways to skin a cat;). I actually thing the link between your answer and mine are very strong. I have a minor quibble; I think the determinant has some optimality property for the problem you try to solve (and need not just be chosen on grounds of familiarity) and I think these optimality properties extend beyond covariance matrices (they hold for the determinant of whatever scatter functional you happen to chose and there are many out there) and extend beyond the Gaussian distribution (to the whole elliptical family).
user603
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.