Kết luận từ đầu ra của một phân tích thành phần chính


9

Tôi đang cố gắng để hiểu đầu ra của phân tích thành phần chính được thực hiện như sau:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

Tôi có xu hướng kết luận sau từ đầu ra trên:

  1. Tỷ lệ phương sai biểu thị mức độ chênh lệch tổng của phương sai của một thành phần chính cụ thể. Do đó, biến thiên PC1 giải thích 73% tổng phương sai của dữ liệu.

  2. Các giá trị xoay được hiển thị giống như 'tải' được đề cập trong một số mô tả.

  3. Khi xem xét các phép quay của PC1, người ta có thể kết luận rằng Sepal.Lipse, Petal.Ldrops và Petal.Width có liên quan trực tiếp với nhau và tất cả chúng đều liên quan nghịch với Sepal.Width (có giá trị âm khi xoay PC1)

  4. Có thể có một yếu tố trong thực vật (một số hệ thống chức năng hóa học / vật lý, v.v.) có thể ảnh hưởng đến tất cả các biến này (Sepal.Lipse, Petal.Ldrops và Petal.Width theo một hướng và Sepal.Width theo hướng ngược lại).

  5. Nếu tôi muốn hiển thị tất cả các phép quay trong một biểu đồ, tôi có thể hiển thị đóng góp tương đối của chúng vào tổng biến thể bằng cách nhân mỗi vòng quay với tỷ lệ phương sai của thành phần chính đó. Ví dụ, đối với PC1, các phép quay 0,52, -0,26, 0,58 và 0,56 đều được nhân với 0,73 (phương sai tỷ lệ cho PC1, được hiển thị trong đầu ra (res) tóm tắt.

Tôi có đúng về kết luận trên không?

Chỉnh sửa liên quan đến câu hỏi 5: Tôi muốn hiển thị tất cả các vòng quay trong một barchart đơn giản như sau: nhập mô tả hình ảnh ở đây

Vì PC2, PC3 và PC4 có sự đóng góp dần dần cho biến thể, nên điều chỉnh (giảm) tải của các biến ở đó có hợp lý không?


Re (5): cái mà bạn gọi là "tải" thực ra không phải là tải, mà là các hàm riêng của ma trận hiệp phương sai, hay còn gọi là hướng chính, hay còn gọi là trục chính. "Tải trọng" là các hàm riêng được nhân với căn bậc hai của giá trị riêng của chúng, tức là bằng căn bậc hai của tỷ lệ phương sai được giải thích. Loadings có nhiều thuộc tính đẹp và hữu ích cho việc giải thích, xem ví dụ chủ đề này: Loadings vs eigenvector trong PCA: khi nào nên sử dụng cái này hay cái khác? Vì vậy, có, nó rất có ý nghĩa để mở rộng quy mô riêng của bạn, chỉ cần sử dụng căn bậc hai của phương sai được giải thích.
amip

@amoeba: Điều gì được vẽ trong biplot của PCA, xoay hoặc tải?
ngày

Hầu hết các tải thường được vẽ, bằng cách xem câu trả lời của tôi ở đây để thảo luận thêm.
amip

Câu trả lời:


9
  1. Đúng. Đây là cách giải thích chính xác.
  2. Có, giá trị xoay cho biết các giá trị tải thành phần. Điều này được xác nhận bởi prcomp tài liệu , mặc dù tôi không chắc tại sao họ gắn nhãn phần này của khía cạnh "Xoay", vì nó ngụ ý các tải trọng đã được xoay bằng một số phương pháp trực giao (có khả năng) hoặc xiên (ít có khả năng).
  3. Mặc dù có vẻ như trường hợp Sepal.Lipse, Petal.Ldrops và Petal.Width đều có liên quan tích cực, tôi sẽ không đưa nhiều cổ phiếu vào tải âm nhỏ của Sepal.Width trên PC1; nó tải mạnh hơn nhiều (hầu như độc quyền) trên PC2. Để rõ ràng, Sepal.Width vẫn có khả năng liên quan tiêu cực đến ba biến số khác, nhưng dường như nó không liên quan chặt chẽ đến thành phần nguyên tắc đầu tiên.
  4. Dựa trên câu hỏi này, tôi tự hỏi liệu bạn sẽ được phục vụ tốt hơn bằng cách sử dụng phân tích nhân tố chung (CF), thay vì phân tích thành phần nguyên tắc (PCA). CF là một kỹ thuật giảm dữ liệu phù hợp khi mục tiêu của bạn là khám phá các khía cạnh lý thuyết có ý nghĩa - chẳng hạn như yếu tố thực vật mà bạn đang đưa ra giả thuyết có thể ảnh hưởng đến Sepal.Lipse, Petal.Ldrops và Petal.Width. Tôi đánh giá cao bạn đến từ một số loại khoa học sinh học - có lẽ là thực vật học - nhưng có một số bài viết hay về Tâm lý học trên PCA v. CF của Fabrigar và cộng sự, 1999, Widaman, 2007, và những người khác. Điểm khác biệt cốt lõi giữa hai là PCA giả định rằng tất cả các phương sai là phương sai điểm thực - không có lỗi - trong khi phân vùng CF phương sai điểm thực sự từ phương sai lỗi, trước khi các yếu tố được trích xuất và ước tính hệ số. Cuối cùng, bạn có thể nhận được một giải pháp tương tự - đôi khi mọi người thực hiện - nhưng khi họ phân kỳ, có xu hướng PCA đánh giá quá cao các giá trị tải và đánh giá thấp mối tương quan giữa các thành phần. Một lợi ích nữa của phương pháp CF là bạn có thể sử dụng ước tính khả năng tối đa để thực hiện các thử nghiệm quan trọng về giá trị tải, đồng thời nhận được một số chỉ số về giải pháp bạn đã chọn (1 yếu tố, 2 yếu tố, 3 yếu tố hoặc 4 yếu tố) giải thích dữ liệu.
  5. Tôi sẽ vẽ các giá trị tải nhân tố như bạn có, mà không tính trọng số của các thanh của chúng theo tỷ lệ phương sai cho các thành phần tương ứng của chúng. Tôi hiểu những gì bạn muốn cố gắng thể hiện bằng cách tiếp cận như vậy, nhưng tôi nghĩ rằng nó có thể sẽ khiến độc giả hiểu sai các giá trị tải thành phần từ phân tích của bạn. Tuy nhiên, nếu bạn muốn một cách trực quan để hiển thị cường độ phương sai tương đối được tính cho từng thành phần, bạn có thể xem xét thao tác độ mờ đục của các thanh nhóm (nếu bạn đang sử dụng ggplot2, tôi tin rằng điều này được thực hiện vớialphathẩm mỹ), dựa trên tỷ lệ phương sai được giải thích bởi từng thành phần (nghĩa là màu sắc rắn hơn = giải thích nhiều phương sai hơn). Tuy nhiên, theo kinh nghiệm của tôi, con số của bạn không phải là một cách điển hình để trình bày kết quả của PCA - Tôi nghĩ rằng một hoặc hai bảng (tải trọng + phương sai được giải thích trong một, tương quan thành phần trong một cái khác) sẽ đơn giản hơn nhiều.

Người giới thiệu

Fabrigar, LR, Wegener, DT, MacCallum, RC, & Strahan, EJ (1999). Đánh giá việc sử dụng phân tích nhân tố khám phá trong nghiên cứu tâm lý. Phương pháp tâm lý , 4 , 272-299.

Widaman, KF (2007). Các yếu tố phổ biến so với các thành phần: Nguyên tắc và nguyên tắc, lỗi và quan niệm sai lầm . Trong R. Cudeck & RC MacCallum (Eds.), Phân tích nhân tố ở 100: Sự phát triển lịch sử và hướng đi trong tương lai (trang 177-203). Mahwah, NJ: Lawrence Erlbaum.


2
+1, nhiều điểm tốt ở đây. Re (2): các hàm riêng của ma trận hiệp phương sai được gọi là "Xoay" ở đây, bởi vì PCA thực chất là một phép quay của hệ tọa độ sao cho hệ tọa độ mới được căn chỉnh với các hàm riêng. Điều này không liên quan gì đến "xoay vòng các yếu tố trực giao / xiên" trong phân tích nhân tố. Re (5): Tôi không chắc là tôi hiểu ý của bạn ở đây và tôi cũng không hiểu OP muốn "hiển thị" các hàm riêng như thế nào trong một biểu đồ ". Có lẽ OP có một cái gì đó giống như một biplot trong tâm trí. Sau đó, có, các hàm riêng thường được chia tỷ lệ theo giá trị riêng, nhưng bằng căn bậc hai của chúng.
amip

Mặc dù cốt truyện đẹp về chủ đề hoa cho chủ đề của bạn, @rnso :)
jsakaluk

1
  1. Không, không phải là tổng phương sai của dữ liệu. Tổng phương sai của dữ liệu bạn muốn thể hiện trong 4 thành phần nguyên tắc. Bạn luôn có thể tìm thấy tổng phương sai bằng cách thêm nhiều thành phần nguyên tắc. Nhưng điều này phân rã nhanh chóng.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.