Các thành phần PCA của dữ liệu Gaussian đa biến có độc lập thống kê không?


16

Các thành phần PCA (trong phân tích thành phần chính) có độc lập thống kê nếu dữ liệu của chúng tôi được phân phối đa biến thông thường không? Nếu vậy, làm thế nào điều này có thể được chứng minh / chứng minh?

Tôi hỏi bởi vì tôi thấy bài đăng này , nơi câu trả lời hàng đầu nêu:

PCA không đưa ra một giả định Gaussianity rõ ràng. Nó tìm thấy các hàm riêng tối đa hóa phương sai được giải thích trong dữ liệu. Tính trực giao của các thành phần chính có nghĩa là nó tìm thấy các thành phần không tương thích nhất để giải thích càng nhiều sự thay đổi trong dữ liệu càng tốt. Đối với các phân phối gaussian đa biến, mối tương quan bằng không giữa các thành phần ngụ ý sự độc lập không đúng với hầu hết các phân phối.

Câu trả lời được nêu mà không có bằng chứng, và dường như ngụ ý rằng PCA tạo ra các thành phần độc lập nếu dữ liệu là đa biến thông thường.

Cụ thể, giả sử dữ liệu của chúng tôi là các mẫu từ:

xN(μ,Σ)

chúng tôi đặt mẫu của vào các hàng của ma trận mẫu , vì vậy là . Tính toán SVD của (sau khi định tâm)x X X n × m XnxXXn×mX

X=USVT

Chúng ta có thể nói rằng các cột của là độc lập thống kê hay không, sau đó là các hàng của ? Điều này nói chung có đúng không, chỉ với hay không đúng?V T x ~ N ( μ , Σ )UVTxN(μ,Σ)


1
stats.stackexchange.com/q/110508/3277 là một câu hỏi tương tự.
ttnphns

1
Tôi không thấy PC có thể được coi là "độc lập thống kê" như thế nào trong nhiều chiều. Xét cho cùng, theo định nghĩa, mỗi người là trực giao với tất cả những người khác; phụ thuộc chức năng này tạo ra một phụ thuộc thống kê rất mạnh.
whuber

1
@amoeba Tôi hy vọng tôi đã luôn rõ ràng cũng như trung thành với câu hỏi, mà tôi tìm được nêu rõ và rõ ràng: vì dữ liệu là ngẫu nhiên, do là tất cả các mục trong . Tôi đã áp dụng định nghĩa về sự độc lập thống kê cho họ. Đó là tất cả. Vấn đề của bạn dường như là bạn đang sử dụng từ "không tương quan" theo hai nghĩa rất khác nhau mà dường như không nhận ra điều đó: nhờ vào cách các cột của được xây dựng, chúng được trực giao hình học như các vectơ trong , nhưng chúng không có nghĩa là các vectơ ngẫu nhiên độc lập! U U R nXUURn
whuber

1
@amoeba Bạn nói đúng - mô phỏng khá thuyết phục cho thấy mối tương quan có thể (mạnh mẽ) khác không. Tuy nhiên, tôi không tranh luận rằng "các thành phần PCA không tương quan" theo nghĩa "tương quan" = "trực giao", tôi cũng không nói bất kỳ sách giáo khoa cụ thể nào là không chính xác. Mối quan tâm của tôi là một tuyên bố như vậy, được hiểu đúng, không liên quan đến câu hỏi mà tất cả những gì nó có thể làm (và đã làm) đang gieo rắc sự nhầm lẫn trong bối cảnh hiện tại.
whuber

1
@whuber, tôi chắc chắn bạn đã mong chờ một phiên bản khác của câu trả lời của tôi! Nó đây rồi Tôi xác nhận một cách rõ ràng điểm của bạn về sự phụ thuộc, và làm cho một tuyên bố rằng cột của tiệm cận độc lập, như là điểm chính của tôi. Ở đây "tiệm cận" chỉ số n của các quan sát (hàng). Tôi rất hy vọng chúng ta sẽ có thể đồng ý về điều đó! Tôi cũng lập luận rằng với bất kỳ n hợp lý nào , chẳng hạn như n = 100 , sự phụ thuộc giữa các cột là "thực tế không liên quan". Điều này tôi đoán là một điểm gây tranh cãi hơn, nhưng tôi cố gắng làm cho nó chính xác một cách hợp lý trong câu trả lời của tôi. Unnn=100
amip nói rằng Tái lập Monica

Câu trả lời:


23

Tôi sẽ bắt đầu với một cuộc biểu tình trực quan.

Tôi đã tạo ra quan sát (a) từ phân phối 2D không phải Gaussian mạnh và (b) từ phân phối Gaussian 2D. Trong cả hai trường hợp tôi làm trung tâm dữ liệu và thực hiện các giá trị phân hủy ít X = U S V . Sau đó, với mỗi trường hợp, tôi tạo ra một biểu đồ phân tán của hai cột đầu tiên của U , một cột so với cột khác. Lưu ý rằng đó thường là các cột của U S được gọi là "thành phần chính" (PC); các cột của U là các PC được chia tỷ lệ để có định mức đơn vị; vẫn còn, trong câu trả lời này, tôi đang tập trung vào các cột của U . Dưới đây là các biểu đồ phân tán:n=100X=USVUUSUU

PCA của dữ liệu Gaussian và không phải Gaussian

Tôi nghĩ rằng các câu lệnh như "các thành phần PCA không tương thích" hoặc "các thành phần PCA phụ thuộc / độc lập" thường được thực hiện về một ma trận mẫu cụ thể và tham khảo các mối tương quan / phụ thuộc giữa các hàng (xem ví dụ câu trả lời của @ ttnphns tại đây ). PCA mang lại một ma trận dữ liệu biến đổi U , trong đó các hàng là các quan sát và các cột là các biến PC. Tức là chúng ta có thể xem Umột mẫu và hỏi mối tương quan mẫu giữa các biến PC là gì. Tất nhiên, ma trận tương quan mẫu này được đưa ra bởi UU = IXUUUU=I, có nghĩa là mối tương quan mẫu giữa các biến PC là 0. Đây là những gì mọi người muốn nói khi họ nói rằng "PCA chéo hóa ma trận hiệp phương sai", v.v.

Kết luận 1: trong tọa độ PCA, mọi dữ liệu đều không có tương quan.

Điều này đúng cho cả hai biểu đồ phân tán ở trên. Tuy nhiên, rõ ràng là hai biến PC y ở bên trái (không phải Gaussian) không độc lập; mặc dù chúng không có mối tương quan bằng 0, nhưng chúng phụ thuộc rất nhiều và trên thực tế có liên quan bởi một y a ( x - b ) 2 . Và thực sự, người ta biết rằng không tương quan không có nghĩa là độc lập .xyya(xb)2

Ngược lại, hai biến PC y ở bên phải (Gaussian) phân tán dường như "độc lập khá nhiều". Tính toán thông tin lẫn nhau giữa chúng (là thước đo của sự phụ thuộc thống kê: các biến độc lập có thông tin lẫn nhau bằng 0) bởi bất kỳ thuật toán tiêu chuẩn nào sẽ mang lại giá trị rất gần với không. Nó sẽ không chính xác bằng 0, bởi vì nó không bao giờ chính xác bằng 0 đối với bất kỳ cỡ mẫu hữu hạn nào (trừ khi được tinh chỉnh); hơn nữa, có nhiều phương pháp khác nhau để tính toán thông tin lẫn nhau của hai mẫu, đưa ra câu trả lời hơi khác nhau. Nhưng chúng ta có thể mong đợi rằng bất kỳ phương pháp nào cũng sẽ mang lại ước tính thông tin lẫn nhau rất gần với không.xy

Kết luận 2: trong tọa độ PCA, dữ liệu Gaussian "độc lập khá nhiều", có nghĩa là ước tính tiêu chuẩn phụ thuộc sẽ ở khoảng không.

Câu hỏi, tuy nhiên, là khó khăn hơn, như thể hiện bởi chuỗi ý kiến ​​dài. Thật vậy, @whuber chỉ ra một cách đúng đắn rằng các biến PCA y (các cột của U ) phải phụ thuộc theo thống kê: các cột phải có độ dài đơn vị và phải trực giao và điều này đưa ra sự phụ thuộc. Ví dụ: nếu một số giá trị trong cột đầu tiên bằng 1 , thì giá trị tương ứng trong cột thứ hai phải là 0 .xyU10

Điều này đúng, nhưng thực tế chỉ phù hợp với rất nhỏ , chẳng hạn như n = 3 (với n = 2 sau khi định tâm chỉ có một PC). Đối với bất kỳ cỡ mẫu hợp lý nào, chẳng hạn như n = 100 được hiển thị trên hình của tôi ở trên, ảnh hưởng của sự phụ thuộc sẽ không đáng kể; các cột của U là các phép chiếu (được chia tỷ lệ) của dữ liệu Gaussian, do đó chúng cũng là Gaussian, điều này khiến cho một giá trị gần như không thể gần bằng 1 (điều này đòi hỏi tất cả các phần tử n - 1 khác phải gần bằng 0 , hầu như không một phân phối Gaussian).nn=3n=2n=100U1n10

Kết luận 3: nói đúng ra, đối với mọi , dữ liệu Gaussian hữu hạn trong tọa độ PCA đều phụ thuộc; tuy nhiên, sự phụ thuộc này thực tế không liên quan đến bất kỳ n 1 nào .nn1

Chúng ta có thể làm cho điều này chính xác bằng cách xem xét những gì xảy ra trong giới hạn của . Trong giới hạn của kích thước mẫu vô hạn, ma trận hiệp phương sai mẫu bằng với hiệp tương ma trận Σ . Vì vậy, nếu vectơ dữ liệu X được lấy mẫu từ , thì các biến PC là (trong đó và là giá trị riêng và hàm riêng của ) vànΣXY =Λ-1/2VX /(n-1)ΛVΣY ~N(0,I/(n-1))XN(0,Σ)Y=Λ1/2VX/(n1)ΛVΣY~N(0,Tôi/(n-1)). Các biến PC có nghĩa là từ một Gaussian đa biến với hiệp phương sai đường chéo. Nhưng bất kỳ Gaussian đa biến nào với ma trận hiệp phương sai chéo đều phân hủy thành một sản phẩm của Gaussian đơn biến, và đây là định nghĩa về tính độc lập thống kê :

N(0,dTôimộtg(σTôi2))= =1(2π)k/2phát hiện(dTôimộtg(σTôi2))1/2điểm kinh nghiệm[-xdTôimộtg(σTôi2)x/2]= =1(2π)k/2(ΠTôi= =1kσTôi2)1/2điểm kinh nghiệm[-ΣTôi= =1kσTôi2xTôi2/2]= =Π1(2π)1/2σTôiđiểm kinh nghiệm[-σTôi2xTôi2/2]= =ΠN(0,σTôi2).

Kết luận 4: Các biến PC không có triệu chứng ( ) của dữ liệu Gaussian độc lập thống kê dưới dạng các biến ngẫu nhiên và thông tin lẫn nhau mẫu sẽ cho giá trị dân số bằng không.n

Tôi nên lưu ý rằng có thể hiểu câu hỏi này khác nhau (xem bình luận của @whuber): xem xét toàn bộ ma trận một biến ngẫu nhiên (thu được từ ma trận ngẫu nhiên thông qua một thao tác cụ thể) và hỏi xem có bất kỳ hai yếu tố cụ thể và từ hai cột khác nhau là độc lập về mặt thống kê trên khác nhau thu hút của . Chúng tôi đã khám phá câu hỏi này trong chủ đề sau này .X U i j U k l XBạnXBạnTôijBạnktôiX


Dưới đây là tất cả bốn kết luận tạm thời từ phía trên:

  • Trong tọa độ PCA, bất kỳ dữ liệu nào cũng có tương quan bằng không.
  • Trong tọa độ PCA, dữ liệu Gaussian "độc lập khá nhiều", có nghĩa là ước tính tiêu chuẩn phụ thuộc sẽ ở khoảng không.
  • Nói đúng ra, đối với bất kỳ hữu hạn , dữ liệu Gaussian trong tọa độ PCA phụ thuộc; tuy nhiên, sự phụ thuộc này thực tế không liên quan đến bất kỳ .n » 1nn»1
  • Các biến PC không có triệu chứng ( ) của dữ liệu Gaussian độc lập thống kê dưới dạng các biến ngẫu nhiên và thông tin lẫn nhau mẫu sẽ cho giá trị dân số bằng không.n

Bạn viết "Tuy nhiên, nếu dữ liệu là Gaussian đa biến, thì chúng thực sự độc lập". "Chúng là thành phần chính và hệ số của chúng? Bạn có ý nghĩa gì bởi PCA chéo hóa ma trận hiệp phương sai? Cảm ơn bạn đã phản hồi của bạn!
bill_e

"Chúng" dùng để chỉ các thành phần chính (là các phép chiếu của dữ liệu theo hướng của phương sai tối đa). PCA tìm hướng của phương sai tối đa; chỉ ra rằng các hướng này được đưa ra bởi các hàm riêng của ma trận hiệp phương sai. Nếu bạn thay đổi tọa độ thành "tọa độ PCA", thì ma trận hiệp phương sai sẽ là đường chéo, đó là cách hoạt động của eigendecro. Tương tự, ma trận trong SVD từ câu hỏi của bạn là ma trận đường chéo. Ngoài ra, ma trận là trực giao, có nghĩa là ma trận hiệp phương sai của nó là đường chéo. Tất cả điều đó có nghĩa là PC có tương quan bằng không. USBạn
amip nói rằng Phục hồi lại

Thật tuyệt, cảm ơn bạn! Sự kết hợp giữa câu trả lời của bạn và nhận xét này giúp làm sáng tỏ mọi thứ cho tôi rất nhiều. Tôi có thể chỉnh sửa nhận xét của bạn vào câu trả lời của bạn không?
bill_e

Tôi mở rộng câu trả lời bằng cách kết hợp nhận xét; xem nếu bạn hài lòng với nó bây giờ.
amip nói rằng Phục hồi lại

2
Thảo luận thú vị! Khi tôi đặt câu hỏi, suy nghĩ của tôi về sự phụ thuộc thống kê là "nếu bạn biết PC1, liệu có thể suy ra PC2 không?, V.v." Tôi sẽ xem xét thêm về các bài kiểm tra độc lập dựa trên thông tin lẫn nhau bây giờ.
bill_e
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.