Giải thích các biplots trong phân tích thành phần chính


30

Tôi đã xem qua hướng dẫn tuyệt vời này: Cẩm nang phân tích thống kê sử dụng R. Chương 13. Phân tích thành phần chính: Olympic Heptathlon về cách làm PCA bằng ngôn ngữ R. Tôi không hiểu cách giải thích của Hình 13.3:

biplot

Vì vậy, tôi đang âm mưu eigenvector đầu tiên so với eigenvector thứ hai. Điều đó nghĩa là gì? Giả sử eigenvalue tương ứng với eigenvector đầu tiên giải thích 60% biến thể trong tập dữ liệu và eigenvalue-eigenvector thứ hai giải thích 20% biến thể. Nó có nghĩa gì để âm mưu những điều này chống lại nhau?


Câu trả lời:


22

PCA là một trong nhiều cách để phân tích cấu trúc của ma trận tương quan đã cho. Bằng cách xây dựng, trục chính đầu tiên là một trong đó tối đa hóa phương sai (phản ánh bởi eigenvalue của nó) khi dữ liệu được chiếu lên một dòng (viết tắt của một hướng đi trong không gian ba chiều, giả sử bạn có p biến) và một trong những thứ hai là trực giao với nó, và vẫn tối đa hóa phương sai còn lại. Đây là lý do tại sao sử dụng hai trục đầu tiên sẽ mang lại xấp xỉ tốt hơn không gian biến ban đầu (giả sử, ma trận X có độ mờ n × pppXn×p ) khi chiếu lên mặt phẳng.

Các thành phần chính chỉ là sự kết hợp tuyến tính của các biến ban đầu. Do đó, việc vẽ các điểm yếu tố riêng lẻ (được định nghĩa là , trong đó u là vectơ tải của bất kỳ thành phần chính nào) có thể giúp làm nổi bật các nhóm của các cá nhân đồng nhất, ví dụ, hoặc để giải thích điểm tổng thể của một người khi xem xét tất cả các biến cùng một lúc . Nói cách khác, đây là một cách để tóm tắt vị trí của một người liên quan đến giá trị của anh ta trên pXuupcác biến, hoặc một sự kết hợp của chúng. Trong trường hợp của bạn, Hình 13.3 trong HSAUR cho thấy Joyner-Kersee (Jy-K) có điểm số cao (âm) trên trục thứ 1, cho thấy anh ta thực hiện tổng thể khá tốt trên tất cả các sự kiện. Cùng một dòng lý luận áp dụng cho việc giải thích trục thứ hai. Tôi có một cái nhìn rất ngắn về con số này vì vậy tôi sẽ không đi sâu vào chi tiết và cách giải thích của tôi chắc chắn là hời hợt. Tôi giả định rằng bạn sẽ tìm thấy thêm thông tin trong sách giáo khoa HSAUR. Ở đây cần lưu ý rằng cả hai biến và cá nhân được hiển thị trên cùng một sơ đồ (điều này được gọi là biplotr(x1,x2)=cos2(x1,x2)

Tuy nhiên, tôi nghĩ rằng bạn nên bắt đầu đọc một số cuốn sách giới thiệu về phân tích đa biến để hiểu sâu hơn về các phương pháp dựa trên PCA. Ví dụ, BS Everitt đã viết một cuốn sách giáo khoa xuất sắc về chủ đề này, Phân tích R và S-Plus ® để phân tích đa biến và bạn có thể kiểm tra trang web đồng hành để minh họa. Có các gói R tuyệt vời khác để phân tích dữ liệu đa biến được áp dụng, như ade4FactoMineR .


Tôi có thể sai nhưng không phải là mối tương quan cặp đôi giữa hai vectơ r(x1,x2)= =cos(x1,x2) không phải cos2(x1,x2)?
hlinee

21

Cốt truyện đang hiển thị:

  • điểm của từng trường hợp (tức là vận động viên) trên hai thành phần chính đầu tiên
  • tải từng biến (nghĩa là mỗi sự kiện thể thao) trên hai thành phần chính đầu tiên.

Các trục trái và dưới cùng đang hiển thị điểm thành phần chính [chuẩn hóa]; các trục trên và bên phải đang hiển thị các tải.

Nói chung, nó giả định rằng hai thành phần giải thích một lượng phương sai đủ để cung cấp một biểu diễn trực quan có ý nghĩa về cấu trúc của các trường hợp và biến.

Bạn có thể nhìn để xem những sự kiện nào gần nhau trong không gian. Khi áp dụng điều này, điều này có thể gợi ý rằng các vận động viên giỏi trong một sự kiện có khả năng cũng sẽ giỏi trong các sự kiện gần khác. Ngoài ra, bạn có thể sử dụng cốt truyện để xem những sự kiện nào ở xa. Ví dụ, javelin dường như là một phần của ngoại lệ và là một sự kiện chính xác định thành phần chính thứ hai. Có lẽ một loại vận động viên khác là giỏi javelin hơn là giỏi trong hầu hết các sự kiện khác.

Tất nhiên, nhiều hơn có thể được nói về giải thích thực chất.



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.