Điều tôi nghĩ đã xảy ra ở đây là tất cả các biến có mối tương quan tích cực với nhau. Trong trường hợp này, PC thứ 1 khá thường xuyên rất gần với mức trung bình của tất cả các biến. Nếu tất cả các biến có tương quan dương với chính xác cùng một hệ số tương quan , thì PC thứ 1 tỷ lệ chính xác với trung bình của tất cả các biến, như tôi giải thích ở đây: Có thể xem trung bình tất cả các biến là một dạng thô của PCA không?c
Trong trường hợp đơn giản này, người ta thực sự có thể rút ra được mối quan hệ toán học mà bạn đang hỏi về. Hãy xem xét ma trận tương quan có kích thước giống như thế:Trình xác định đầu tiên của nó bằng , tương ứng với mức trung bình [được chia tỷ lệ] của tất cả các biến. Giá trị riêng của nó là . Tổng của tất cả các giá trị riêng nếu tất nhiên được tính bằng tổng của tất cả các phần tử đường chéo, tức là . Vì vậy, tỷ lệ phương sai được giải thích bởi PC đầu tiên bằngn×n
⎛⎝⎜⎜⎜1cccc1cccc1cccc1⎞⎠⎟⎟⎟.
(1,1,1,1)⊤/n−−√λ1=1+(n−1)c∑λi=nR2=1n+n−1nc≈c.
Vì vậy, trong trường hợp đơn giản nhất này, tỷ lệ phương sai được giải thích bởi PC đầu tiên tương quan 100% với tương quan trung bình và đối với lớn gần bằng với nó. Đó chính xác là những gì chúng ta thấy trên cốt truyện của bạn.n
Tôi hy vọng rằng đối với các ma trận lớn, kết quả này sẽ xấp xỉ ngay cả khi các mối tương quan không hoàn toàn giống nhau.
Cập nhật. Sử dụng hình được đăng trong câu hỏi, người ta thậm chí có thể cố gắng ước tính bằng cách nhận thấy rằng . Nếu chúng ta lấy và thì ta nhận được . OP nói rằng dữ liệu là "chỉ số chứng khoán DAX"; googling nó, chúng tôi thấy rằng nó dường như bao gồm biến. Một trận đấu không tồi.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1−c)/(R2−c)c=0.5R2−c=0.02n=2530