Có một cách giải thích trực quan về


107

Đối với ma trận dữ liệu đã cho (với các biến trong cột và điểm dữ liệu theo hàng), có vẻ như đóng vai trò quan trọng trong thống kê. Ví dụ, nó là một phần quan trọng của giải pháp phân tích bình phương tối thiểu thông thường. Hoặc, đối với PCA, các hàm riêng của nó là các thành phần chính của dữ liệu.A T AAATA

Tôi hiểu làm thế nào để tính toán , nhưng tôi đã tự hỏi nếu có một sự giải thích trực quan về những gì ma trận này đại diện, dẫn đến vai trò quan trọng của nó?ATA


2
Một số trực giác có thể được cung cấp bởi phân tích tại stats.stackexchange.com/a/66295/919 .
whuber

Câu trả lời:


125

Hình học, ma trận được gọi là ma trận của các sản phẩm vô hướng (= sản phẩm dot, = sản phẩm bên trong). Theo đại số, nó được gọi là ma trận tổng bình phương và sản phẩm chéo ( SSCP ).AA

yếu tố chéo -TH bằng Σ một 2 ( i ) , nơi một ( i ) biểu thị giá trị trong i cột -thứ của AΣ là tổng trên các hàng. Các i j -thứ off-đường chéo yếu tố trong đó là Σ một ( i ) một ( j ) .ia(i)2a(i)iAija(i)a(j)

Có một số hệ số liên kết quan trọng và ma trận vuông của chúng được gọi là độ tương tự góc hoặc độ tương tự kiểu SSCP:

  • Chia ma trận SSCP cho , kích thước mẫu hoặc số hàng của A , bạn nhận được ma trận MSCP (trung bình bình phương và chéo sản phẩm). Do đó, công thức cặp của biện pháp kết hợp này là x ynA (với vectơxylà một cặp cột từA).xynxyA

  • Nếu bạn căn giữa các cột (biến) của , thì A A là ma trận phân tán (hoặc đồng phân tán, nếu nghiêm ngặt) và A A / ( n - 1 ) là ma trận hiệp phương sai . Công thức cặp của hiệp phương sai là c x c yAAAAA/(n1) vớicxcybiểu thị các cột trung tâm.cxcyn1cxcy

  • Nếu bạn Z- chuẩn cột (trừ cột có ý nghĩa và chia cho độ lệch chuẩn), sau đó A ' A / ( n - 1 ) là Pearson tương quan ma trận: tương quan là hiệp phương sai cho các biến được chuẩn hóa. Công thức tương quan theo cặp là z x z yAAA/(n1) vớizxzybiểu thị các cột được tiêu chuẩn hóa. Mối tương quan còn được gọi là hệ số tuyến tính.zxzyn1zxzy

  • Nếu bạn unit- quy mô cột của (mang SS của họ, tổng bình phương, để 1), sau đó A ' Mộtcosin ma trận tương đồng. Do đó, công thức cặp tương đương có vẻ là u x u y = x yAAA vớiuxuybiểu thị các cột được chuẩn hóa L2. Tương tự cosine còn được gọi là hệ số tỷ lệ.uxuy=xyx2y2uxuy

  • Nếu bạn tập trung và sau đó unit- quy mô cột , sau đó A ' Một lần nữa là Pearson tương quan ma trận, bởi vì tương quan là cosin cho các biến làm trung tâm 1 , 2 : Σ c u x c u y = Σ c x c yAAA1,2cuxcuy=cxcycx2cy2

Bên cạnh bốn biện pháp hiệp hội chính này, chúng ta cũng đề cập đến một số biện pháp khác, cũng dựa trên , để vượt qua nó. Chúng có thể được coi là các biện pháp thay thế cho sự tương tự cosin bởi vì chúng áp dụng khác với bình thường hóa, mẫu số trong công thức:AA

  • Hệ số nhận dạng [Zegers & ten Berge, 1985] có mẫu số của nó ở dạng trung bình số học thay vì trung bình hình học: . Nó có thể là 1 khi và chỉ khi các cột được so sánh củaAgiống hệt nhau.xy(x2+y2)/2A

  • Một hệ số có thể sử dụng khác giống như nó được gọi là tỷ lệ tương tự : .xyx2+y2xy=xyxy+(xy)2

  • Cuối cùng, nếu giá trị trong là không âm và họ sum trong cột là 1 (ví dụ họ là tỷ lệ), sau đó A là ma trận củađộ trung thựchoặchệ sốBhattacharyya.AA


Một cách cũng phải tính toán tương quan hoặc hiệp phương sai ma trận, sử dụng bởi nhiều phần mềm thống kê, bỏ qua tập trung dữ liệu và khởi hành trực tiếp từ SSCP ma trận A ' Một cách này. Gọi s là vectơ hàng của tổng cột dữ liệu A trong khi n là số hàng trong dữ liệu. Sau đó (1) tính toán ma trận tán xạ như C = A ' A - s ' s / n [từ đó, C / ( n - 1 ) sẽ là ma trận hiệp phương sai]; (2) đường chéo của C1AAsAnC=AAss/nC/(n1)Clà tổng các độ lệch bình phương, vectơ hàng ; (3) tương quan tính toán ma trận R = C / d .R=C/dd

Một người đọc mới làm quen nhưng có tính thống kê có thể gặp khó khăn trong việc điều hòa hai định nghĩa tương quan - là "hiệp phương sai" (bao gồm tính trung bình theo kích thước mẫu, cách chia theodf= "n-1") và là "cosine" (ngụ ý không tính trung bình như vậy). Nhưng trên thực tế không có trung bình thực sự trong công thức tương quan đầu tiên diễn ra. Điều đó là st. độ lệch, theo đó tiêu chuẩn hóa z đã đạt được, đã lần lượt được tính toán với phép chia theo cùngdf đó; và do đó mẫu số "n-1" trong công thức tương quan - như - hiệp phương sai hoàn toàn hủy bỏ nếu bạn hủy bỏ công thức: công thứcbiến thành công thức của cosin. Để tính giá trị tương quan theo kinh nghiệm, bạn thực sựkhôngcầnphảibiết n2n (ngoại trừ khi tính toán trung bình, đến trung tâm).


42

Ma trận chứa tất cả các sản phẩm bên trong của tất cả các cột trong Một . Do đó, đường chéo chứa các chỉ tiêu bình phương của các cột. Nếu bạn nghĩ về hình chiếu và hình chiếu trực giao lên không gian cột được kéo dài bởi các cột trong A, bạn có thể nhớ rằng các chỉ tiêu và sản phẩm bên trong của các vectơ bao trùm không gian này đóng vai trò trung tâm trong tính toán của phép chiếu. Hồi quy bình phương tối thiểu cũng như các thành phần chính có thể được hiểu theo các hình chiếu trực giao.ATAAA

Cũng lưu ý rằng nếu các cột của là trực giao, do đó hình thành cơ sở trực giao cho không gian cột, thì A T A = I - ma trận danh tính.AATA=I -


39

@NRH đã đưa ra một câu trả lời kỹ thuật tốt.

Nếu bạn muốn một cái gì đó thực sự cơ bản, bạn có thể nghĩ là ma trận tương đương với A 2 cho một vô hướng.ATMộtA2


5
Mặc dù các câu trả lời khác đúng hơn về mặt kỹ thuật, đây là câu trả lời trực quan nhất.
MèoLoveJazz

3

Một quan điểm quan trọng về hình học của là điều này (quan điểm nhấn mạnh trong cuốn sách của Strang về "Đại số tuyến tính và các ứng dụng của nó"): Giả sử A là một m × n -matrix của hạng k, đại diện cho bản đồ tuyến tính A : R nR m . Hãy Col (A) và Row (A) là không gian cột và hàng của Một . Sau đóAMộtm×viết sai rồiA:Rviết sai rồiRmMột

(a) Là một ma trận đối xứng thực, có cơ sở { e 1 , . . . , E n } của vector riêng với giá trị riêng khác không d 1 , ... , d k . Do vậy:(Một'Một):Rviết sai rồiRviết sai rồi{e1,...,eviết sai rồi}Cười mở miệng1,Giáo dục,Cười mở miệngk

.(Một'Một)(x1e1+Giáo dục+xviết sai rồieviết sai rồi)= =Cười mở miệng1x1e1+...+Cười mở miệngkxkek

(b) Phạm vi (A) = Col (A), theo định nghĩa của Col (A). Vậy A | Row (A) ánh xạ Row (A) thành Col (A).

(c) Kernel (A) là phần bù trực giao của Row (A). Điều này là do phép nhân ma trận được xác định theo các sản phẩm chấm (hàng i) * (col j). (Vì vậy, Mộtv'= =0v nằm trong hạt nhân (A)vlà bổ sung trực giao của Row (A)

(Cười mở miệng) A | Hàng (A) : Hàng (A) C o l ( A ) là một đẳng cấu.Một(Rviết sai rồi)= =Một(Hàng(Một))Một|Hàng (A):Hàng (A)Cotôi(Một)

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Ngẫu nhiên đưa ra một bằng chứng rằng xếp hạng Hàng = Xếp hạng cột!]

(e) Áp dụng (d), là một đẳng cấuMột'|:Cotôi(Một)= =Hàng (A)Cola')= =Hàng (A)

(f) By (d) và (e): và A'A maps Row (A) đẳng hình lên Row (A).Một'Một(Rviết sai rồi)= =Hàng (A)


2
Bạn có thể gửi kèm một công thức bằng $$ để có . LMộtTEX
Placidia

2

Mặc dù người ta đã thảo luận rằng ATA có ý nghĩa là lấy các sản phẩm chấm, tôi sẽ chỉ thêm một biểu diễn đồ họa của phép nhân này.

Thật vậy, trong khi các hàng của ma trận AT (và các cột của ma trận A ) đại diện cho các biến, chúng tôi coi mỗi phép đo biến là một vectơ đa chiều. Nhân hàng rowp của AT với cột colp của A tương đương với lấy tích của hai vectơ: dot(rowp,colp) - kết quả là mục nhập tại vị trí(p,p)bên trong ma trận ATA .

Tương tự, nhân hàng p của AT với cột k của A tương đương với sản phẩm chấm: dot(rowp,colk) , với kết quả tại vị trí(p,k) .

Mục nhập (p,k) của ma trận kết quả ATA có ý nghĩa là bao nhiêu vectơ rowp theo hướng của vectơ colk . Nếu tích của hai vectơ rowicolj khác 0, một số thông tin về vectơ rowi được mang bởi một vectơ colj, và ngược lại.

Ý tưởng này đóng một vai trò quan trọng trong Phân tích thành phần chính, trong đó chúng tôi muốn tìm một đại diện mới cho ma trận dữ liệu ban đầu của chúng tôi A sao cho không có thêm thông tin nào về bất kỳ cột nàoi trong bất kỳ cột khácji . Nghiên cứu PCA sâu hơn, bạn sẽ thấy rằng một "phiên bản mới" của ma trận hiệp phương sai được tính toán và nó trở thành một ma trận chéo mà tôi để bạn nhận ra rằng ... thực sự nó có nghĩa là những gì tôi đã diễn đạt trong câu trước.

nhập mô tả hình ảnh ở đây


1

xE[x2]MộtMộtTMột

xxTôi

một= =[x1x2Giáo dụcxviết sai rồi]

x

x2¯= =mộtmộtviết sai rồi
MộtTMột

σ2= =E[x2]MộtTMộtMộtTMột

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.