Tôi sẽ bắt đầu với một cuộc biểu tình trực quan.
Tôi đã tạo ra quan sát (a) từ phân phối 2D không phải Gaussian mạnh và (b) từ phân phối Gaussian 2D. Trong cả hai trường hợp tôi làm trung tâm dữ liệu và thực hiện các giá trị phân hủy ít X = U S V ⊤ . Sau đó, với mỗi trường hợp, tôi tạo ra một biểu đồ phân tán của hai cột đầu tiên của U , một cột so với cột khác. Lưu ý rằng đó thường là các cột của U S được gọi là "thành phần chính" (PC); các cột của U là các PC được chia tỷ lệ để có định mức đơn vị; vẫn còn, trong câu trả lời này, tôi đang tập trung vào các cột của U . Dưới đây là các biểu đồ phân tán:n=100X=USV⊤UUSUU
Tôi nghĩ rằng các câu lệnh như "các thành phần PCA không tương thích" hoặc "các thành phần PCA phụ thuộc / độc lập" thường được thực hiện về một ma trận mẫu cụ thể và tham khảo các mối tương quan / phụ thuộc giữa các hàng (xem ví dụ câu trả lời của @ ttnphns tại đây ). PCA mang lại một ma trận dữ liệu biến đổi U , trong đó các hàng là các quan sát và các cột là các biến PC. Tức là chúng ta có thể xem U là một mẫu và hỏi mối tương quan mẫu giữa các biến PC là gì. Tất nhiên, ma trận tương quan mẫu này được đưa ra bởi U ⊤ U = IXUUU⊤U=I, có nghĩa là mối tương quan mẫu giữa các biến PC là 0. Đây là những gì mọi người muốn nói khi họ nói rằng "PCA chéo hóa ma trận hiệp phương sai", v.v.
Kết luận 1: trong tọa độ PCA, mọi dữ liệu đều không có tương quan.
Điều này đúng cho cả hai biểu đồ phân tán ở trên. Tuy nhiên, rõ ràng là hai biến PC và y ở bên trái (không phải Gaussian) không độc lập; mặc dù chúng không có mối tương quan bằng 0, nhưng chúng phụ thuộc rất nhiều và trên thực tế có liên quan bởi một y ≈ a ( x - b ) 2 . Và thực sự, người ta biết rằng không tương quan không có nghĩa là độc lập .xyy≈a(x−b)2
Ngược lại, hai biến PC và y ở bên phải (Gaussian) phân tán dường như "độc lập khá nhiều". Tính toán thông tin lẫn nhau giữa chúng (là thước đo của sự phụ thuộc thống kê: các biến độc lập có thông tin lẫn nhau bằng 0) bởi bất kỳ thuật toán tiêu chuẩn nào sẽ mang lại giá trị rất gần với không. Nó sẽ không chính xác bằng 0, bởi vì nó không bao giờ chính xác bằng 0 đối với bất kỳ cỡ mẫu hữu hạn nào (trừ khi được tinh chỉnh); hơn nữa, có nhiều phương pháp khác nhau để tính toán thông tin lẫn nhau của hai mẫu, đưa ra câu trả lời hơi khác nhau. Nhưng chúng ta có thể mong đợi rằng bất kỳ phương pháp nào cũng sẽ mang lại ước tính thông tin lẫn nhau rất gần với không.xy
Kết luận 2: trong tọa độ PCA, dữ liệu Gaussian "độc lập khá nhiều", có nghĩa là ước tính tiêu chuẩn phụ thuộc sẽ ở khoảng không.
Câu hỏi, tuy nhiên, là khó khăn hơn, như thể hiện bởi chuỗi ý kiến dài. Thật vậy, @whuber chỉ ra một cách đúng đắn rằng các biến PCA và y (các cột của U ) phải phụ thuộc theo thống kê: các cột phải có độ dài đơn vị và phải trực giao và điều này đưa ra sự phụ thuộc. Ví dụ: nếu một số giá trị trong cột đầu tiên bằng 1 , thì giá trị tương ứng trong cột thứ hai phải là 0 .xyBạn10
Điều này đúng, nhưng thực tế chỉ phù hợp với rất nhỏ , chẳng hạn như n = 3 (với n = 2 sau khi định tâm chỉ có một PC). Đối với bất kỳ cỡ mẫu hợp lý nào, chẳng hạn như n = 100 được hiển thị trên hình của tôi ở trên, ảnh hưởng của sự phụ thuộc sẽ không đáng kể; các cột của U là các phép chiếu (được chia tỷ lệ) của dữ liệu Gaussian, do đó chúng cũng là Gaussian, điều này khiến cho một giá trị gần như không thể gần bằng 1 (điều này đòi hỏi tất cả các phần tử n - 1 khác phải gần bằng 0 , hầu như không một phân phối Gaussian).nn = 3n = 2n = 100Bạn1n - 10
Kết luận 3: nói đúng ra, đối với mọi , dữ liệu Gaussian hữu hạn trong tọa độ PCA đều phụ thuộc; tuy nhiên, sự phụ thuộc này thực tế không liên quan đến bất kỳ n ≫ 1 nào .nn » 1
Chúng ta có thể làm cho điều này chính xác bằng cách xem xét những gì xảy ra trong giới hạn của . Trong giới hạn của kích thước mẫu vô hạn, ma trận hiệp phương sai mẫu bằng với hiệp tương ma trận Σ . Vì vậy, nếu vectơ dữ liệu X được lấy mẫu từ , thì các biến PC là (trong đó và là giá trị riêng và hàm riêng của ) vàn → ∞ΣX → Y =Λ-1/2V⊤ → X /(n-1)ΛVΣ → Y ~N(0,I/(n-1))X⃗ ~ N( 0 , Σ )Y⃗ = Λ- 1 / 2V⊤X⃗ / (n-1)ΛVΣY⃗ ~ N( 0 , tôi / ( n - 1 ) ). Các biến PC có nghĩa là từ một Gaussian đa biến với hiệp phương sai đường chéo. Nhưng bất kỳ Gaussian đa biến nào với ma trận hiệp phương sai chéo đều phân hủy thành một sản phẩm của Gaussian đơn biến, và đây là định nghĩa về tính độc lập thống kê :
N( 0 , d i một g ( σ2Tôi) )= 1( 2 π)k / 2det ( d i a g ( σ2Tôi) )1 / 2điểm kinh nghiệm[ - x⊤d i a g ( σ2Tôi) x / 2 ]= 1( 2 π)k / 2( ∏ki = 1σ2Tôi)1 / 2điểm kinh nghiệm[ - Σi = 1kσ2Tôix2Tôi/ 2 ]= ∏ 1( 2 π)1 / 2σTôiđiểm kinh nghiệm[ - σ2Tôix2Tôi/ 2 ]= ∏ N( 0 , σ2Tôi) .
Kết luận 4: Các biến PC không có triệu chứng ( ) của dữ liệu Gaussian độc lập thống kê dưới dạng các biến ngẫu nhiên và thông tin lẫn nhau mẫu sẽ cho giá trị dân số bằng không.n → ∞
Tôi nên lưu ý rằng có thể hiểu câu hỏi này khác nhau (xem bình luận của @whuber): xem xét toàn bộ ma trận một biến ngẫu nhiên (thu được từ ma trận ngẫu nhiên thông qua một thao tác cụ thể) và hỏi xem có bất kỳ hai yếu tố cụ thể và từ hai cột khác nhau là độc lập về mặt thống kê trên khác nhau thu hút của . Chúng tôi đã khám phá câu hỏi này trong chủ đề sau này .X U i j U k l XBạnXBạntôi jBạnk lX
Dưới đây là tất cả bốn kết luận tạm thời từ phía trên:
- Trong tọa độ PCA, bất kỳ dữ liệu nào cũng có tương quan bằng không.
- Trong tọa độ PCA, dữ liệu Gaussian "độc lập khá nhiều", có nghĩa là ước tính tiêu chuẩn phụ thuộc sẽ ở khoảng không.
- Nói đúng ra, đối với bất kỳ hữu hạn , dữ liệu Gaussian trong tọa độ PCA phụ thuộc; tuy nhiên, sự phụ thuộc này thực tế không liên quan đến bất kỳ .n » 1nn » 1
- Các biến PC không có triệu chứng ( ) của dữ liệu Gaussian độc lập thống kê dưới dạng các biến ngẫu nhiên và thông tin lẫn nhau mẫu sẽ cho giá trị dân số bằng không.n → ∞