Bối rối về lời giải thích trực quan của người bản địa: làm thế nào các bộ dữ liệu khác nhau có thể có cùng một hàm riêng?


10

Rất nhiều sách giáo khoa thống kê cung cấp một minh họa trực quan về những gì các hàm riêng của ma trận hiệp phương sai là:

nhập mô tả hình ảnh ở đây

Các vectơ uz tạo thành các hàm riêng (tốt, eigenaxes). Điều này thật ý nghĩa. Nhưng một điều làm tôi bối rối là chúng tôi trích xuất các hàm riêng từ ma trận tương quan chứ không phải dữ liệu thô. Hơn nữa, các bộ dữ liệu thô khá khác nhau có thể có ma trận tương quan giống hệt nhau. Ví dụ: cả hai đều có ma trận tương quan:

[10.970.971]

Eigenvector

Như vậy, chúng có các hàm riêng chỉ theo cùng một hướng:

[.71.71.71.71]

Nhưng nếu bạn áp dụng cùng một cách giải thích trực quan về hướng mà các hàm riêng trong dữ liệu thô, bạn sẽ nhận được các vectơ chỉ theo các hướng khác nhau.

Ai đó có thể vui lòng cho tôi biết tôi đã đi sai ở đâu?

Chỉnh sửa thứ hai : Nếu tôi có thể rất táo bạo, với những câu trả lời xuất sắc dưới đây, tôi có thể hiểu được sự nhầm lẫn và đã minh họa nó.

  1. Giải thích trực quan phù hợp với thực tế là các hàm riêng được trích xuất từ ma trận hiệp phương sai là khác biệt.

    Hiệp phương sai và Eigenvector (Đỏ):

    [1111][.7.72.72.7]

    Hiệp phương sai và Eigenvector (màu xanh):

    [.25.5.51][.43.9.9.43]
  2. Ma trận tương quan phản ánh ma trận hiệp phương sai của các biến được tiêu chuẩn hóa. Kiểm tra trực quan các biến được tiêu chuẩn hóa chứng minh tại sao các hàm riêng giống hệt nhau được trích xuất trong ví dụ của tôi:

nhập mô tả hình ảnh ở đây


3
Nếu bạn muốn đánh giá mối tương quan , thì bạn phải vẽ các biểu đồ phân tán của mình với các tỷ lệ trong đó độ lệch chuẩn của các thành phần bằng nhau. Đó không phải là trường hợp trong bất kỳ hình ảnh nào của bạn (có lẽ ngoại trừ các chấm đỏ trong hình thứ hai), đây có thể là một lý do khiến bạn thấy điều này khó hiểu.
whuber

3
Tôi đánh giá cao việc bạn đã minh họa câu hỏi của bạn. Điều đó giúp mọi người hiểu nó & thêm vào giá trị của chuỗi để tham khảo trong tương lai. Tuy nhiên, hãy lưu ý rằng ~ 10% nam giới bị mù màu xanh đỏ. Với 2 màu, đỏ & xanh có thể an toàn hơn.
gung - Phục hồi Monica

Rất cám ơn, tôi đã sửa các màu như bạn đề xuất
Sue Doh Nimh 17/11/14

2
Không vấn đề gì, @SueDohNimh. Cảm ơn bạn đã làm cho nó dễ hiểu cho tất cả. Trên một lưu ý khác, tôi sẽ giữ [PCA]thẻ. Nếu bạn muốn tập trung lại câu hỏi, hoặc hỏi một câu hỏi (liên quan) mới và liên kết đến câu hỏi này, điều đó có vẻ tốt, nhưng tôi nghĩ rằng câu hỏi này là PCA-ish đủ để xứng đáng với thẻ.
gung - Tái lập Monica

Làm tốt lắm, @SueDohNimh. Bạn cũng có thể thêm nó dưới dạng câu trả lời cho câu hỏi của riêng bạn thay vì chỉnh sửa, nếu bạn muốn.
gung - Phục hồi Monica

Câu trả lời:


9

Bạn không phải làm PCA qua ma trận tương quan; bạn cũng có thể phân tách ma trận hiệp phương sai. Lưu ý rằng những thứ này thường sẽ mang lại giải pháp khác nhau. (Để biết thêm về điều này, xem: PCA về tương quan hoặc hiệp phương sai? )

Trong hình thứ hai của bạn, các mối tương quan là như nhau, nhưng các nhóm trông khác nhau. Chúng trông khác nhau vì chúng có hiệp phương sai khác nhau. Tuy nhiên, phương sai cũng khác nhau (ví dụ: nhóm màu đỏ thay đổi trong phạm vi rộng hơn của X1) và mối tương quan là hiệp phương sai chia cho độ lệch chuẩn ( ). Kết quả là, các mối tương quan có thể giống nhau. Covxy/SDxSDy

Một lần nữa, nếu bạn thực hiện PCA với các nhóm này bằng cách sử dụng ma trận hiệp phương sai, bạn sẽ nhận được kết quả khác so với khi bạn sử dụng ma trận tương quan.


2
+1 Có lẽ bạn cũng đã nhận thấy rằng với hai biến, ma trận tương quan luôn có hai hàm riêng, và , bất kể giá trị tương quan có là gì. ( 1 , - 1 )(1,1)(1,1)
whuber

1
+1 với những gì @whuber đã viết, nhưng lưu ý rằng các giá trị riêng tương ứng phụ thuộc vào giá trị tương quan.
amip nói rằng Phục hồi lại

Điều này là đúng, nhưng các hàm riêng của ma trận Cov có thể thay đổi dựa trên mối tương quan.
gung - Khôi phục Monica

1
Chào các bạn, cảm ơn nhiều. Tôi đã nhận thức được rằng các hàm riêng biệt phát sinh từ việc sử dụng ma trận hiệp phương sai thay thế; đây là một nguồn quan tâm hơn nữa vì tôi đã làm tôi lo lắng rằng bằng cách sử dụng ma trận tương quan thay vào đó tôi đã giảm thông tin được sử dụng và do đó ít chính xác hơn. Sẽ là hợp lý khi kết luận dựa trên câu trả lời của bạn rằng giải thích trực quan được cung cấp chỉ thực sự có thể áp dụng cho người bản địa của ma trận hiệp phương sai của dữ liệu thô chứ không phải ma trận correelation?
Sue Doh Nimh

1
Không thực sự, @SueDohNimh. Bạn có thể sử dụng giải đoán trực quan, chỉ cần chuẩn hóa các biến của bạn trước nếu bạn muốn sử dụng ma trận tương quan.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.