Tại sao lượng phương sai được giải thích bởi PC đầu tiên của tôi rất gần với tương quan cặp trung bình?


9

Mối quan hệ giữa (các) thành phần chính đầu tiên và tương quan trung bình trong ma trận tương quan là gì?

Ví dụ, trong một ứng dụng thực nghiệm tôi nhận thấy rằng mối tương quan trung bình gần giống như tỷ lệ phương sai của thành phần chính đầu tiên (giá trị riêng đầu tiên) với tổng phương sai (tổng của tất cả các giá trị riêng).

Có một mối quan hệ toán học?

Dưới đây là biểu đồ của kết quả thực nghiệm. Trong đó mối tương quan là tương quan trung bình giữa lợi nhuận của thành phần chỉ số chứng khoán DAX được tính toán trong cửa sổ cuộn 15 ngày và phương sai được giải thích là tỷ lệ phương sai được giải thích bởi thành phần chính đầu tiên, cũng được tính toán trong cửa sổ cuộn 15 ngày.

Điều này có thể được giải thích bằng một mô hình yếu tố rủi ro phổ biến như CAPM không?

nhập mô tả hình ảnh ở đây


1
Bạn cho rằng điều gì xảy ra khi nhiều tương quan là âm hoặc gần bằng 0? Ví dụ, tạo một số dữ liệu thông thường bivariate với tương quan bằng không. Tại sao bạn mong đợi có bất kỳ mối quan hệ nào giữa tỷ lệ phương sai của bạn và mối tương quan bằng không đó?
whuber

Câu trả lời:


6

Tôi tin rằng mối quan hệ giữa tương quan trung bình và giá trị riêng của PC thứ 1 tồn tại nhưng không phải là duy nhất. Tôi không phải là một nhà toán học để có thể suy luận ra nó, nhưng ít nhất tôi có thể hiển thị điểm bắt đầu mà trực giác hoặc suy nghĩ của một người có thể phát triển từ đó.

Nếu bạn vẽ các biến được tiêu chuẩn hóa thành các vectơ trong không gian euclide có chỗ ngồi (và đây là không gian giảm trong đó các trục là các quan sát), thì mối tương quan là cosin giữa hai vectơ .

nhập mô tả hình ảnh ở đây

Và bởi vì các vectơ có chiều dài đơn vị (do tiêu chuẩn hóa), các cosin là các hình chiếu của các vectơ với nhau (như được hiển thị trên hình bên trái với ba biến). PC thứ nhất là một dòng như vậy trong không gian này tối đa hóa tổng các hình chiếu bình phương lên nó, một , được gọi là tải; và tổng này là giá trị riêng thứ nhất.

Vì vậy, khi bạn thiết lập mối quan hệ giữa giá trị trung bình của ba hình chiếu bên trái với tổng (hoặc giá trị trung bình) của ba hình chiếu bình phương bên phải, bạn trả lời câu hỏi của bạn về mối quan hệ giữa tương quan trung bình và giá trị riêng.


6

Điều tôi nghĩ đã xảy ra ở đây là tất cả các biến có mối tương quan tích cực với nhau. Trong trường hợp này, PC thứ 1 khá thường xuyên rất gần với mức trung bình của tất cả các biến. Nếu tất cả các biến có tương quan dương với chính xác cùng một hệ số tương quan , thì PC thứ 1 tỷ lệ chính xác với trung bình của tất cả các biến, như tôi giải thích ở đây: Có thể xem trung bình tất cả các biến là một dạng thô của PCA không?c

Trong trường hợp đơn giản này, người ta thực sự có thể rút ra được mối quan hệ toán học mà bạn đang hỏi về. Hãy xem xét ma trận tương quan có kích thước giống như thế:Trình xác định đầu tiên của nó bằng , tương ứng với mức trung bình [được chia tỷ lệ] của tất cả các biến. Giá trị riêng của nó là . Tổng của tất cả các giá trị riêng nếu tất nhiên được tính bằng tổng của tất cả các phần tử đường chéo, tức là . Vì vậy, tỷ lệ phương sai được giải thích bởi PC đầu tiên bằngn×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Vì vậy, trong trường hợp đơn giản nhất này, tỷ lệ phương sai được giải thích bởi PC đầu tiên tương quan 100% với tương quan trung bình và đối với lớn gần bằng với nó. Đó chính xác là những gì chúng ta thấy trên cốt truyện của bạn.n

Tôi hy vọng rằng đối với các ma trận lớn, kết quả này sẽ xấp xỉ ngay cả khi các mối tương quan không hoàn toàn giống nhau.


Cập nhật. Sử dụng hình được đăng trong câu hỏi, người ta thậm chí có thể cố gắng ước tính bằng cách nhận thấy rằng . Nếu chúng ta lấy và thì ta nhận được . OP nói rằng dữ liệu là "chỉ số chứng khoán DAX"; googling nó, chúng tôi thấy rằng nó dường như bao gồm biến. Một trận đấu không tồi.n = ( 1 - c ) / ( R 2 - c ) c = 0,5 R 2 - c = 0,02 n = 25 30nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.