Thành phần chính đầu tiên không tách các lớp, nhưng các PC khác thì có; làm thế nào là có thể?


11

Tôi đã chạy PCA trên 17 biến định lượng để có được một bộ biến nhỏ hơn, đó là các thành phần chính, được sử dụng trong học máy có giám sát để phân loại các thể hiện thành hai lớp. Sau PCA, PC1 chiếm 31% phương sai trong dữ liệu, PC2 chiếm 17%, PC3 chiếm 10%, PC4 chiếm 8%, PC5 chiếm 7% và PC6 chiếm 6%.

Tuy nhiên, khi tôi nhìn vào sự khác biệt trung bình giữa các PC giữa hai lớp, thật đáng ngạc nhiên, PC1 không phải là một sự phân biệt tốt giữa hai lớp. PC còn lại là những người phân biệt đối xử tốt. Ngoài ra, PC1 trở nên không liên quan khi được sử dụng trong cây quyết định, điều đó có nghĩa là sau khi tỉa cây, nó thậm chí không xuất hiện trong cây. Cây bao gồm PC2-PC6.

Có lời giải thích nào cho hiện tượng này không? Nó có thể là một cái gì đó sai với các biến dẫn xuất?


5
Đọc số liệu câu hỏi gần đây thống kê.stackexchange.com / q / 79968/3277 với liên kết trong đó. Vì PCA không biết về sự tồn tại của các lớp nên nó không đảm bảo rằng bất kỳ PC nào sẽ là người phân biệt đối xử thực sự tốt; hơn nữa PC1 sẽ là một người phân biệt đối xử tốt. Xem thêm hai hình ảnh ví dụ ở đây .
ttnphns

2
Xem thêm Điều gì có thể khiến PCA làm xấu đi kết quả của phân loại? , đặc biệt là các số liệu trong câu trả lời của @vqv.
amip nói rằng Phục hồi lại

Câu trả lời:


14

Nó cũng có thể xảy ra nếu các biến không được thu nhỏ để có phương sai đơn vị trước khi thực hiện PCA. Ví dụ: đối với những dữ liệu này (lưu ý rằng thang đo chỉ đi từ đến trong khi đi từ đến ):y0.51x33

nhập mô tả hình ảnh ở đây

PC1 xấp xỉ và chiếm gần như toàn bộ phương sai, nhưng không có khả năng phân biệt đối xử, trong khi PC2 là và phân biệt hoàn hảo giữa các lớp.xy


Chào, cảm ơn cho câu trả lời của bạn! Làm thế nào để mở rộng quy mô? (ý nghĩa x) / sd?
Frida

Có, trong RI được sử dụng prcomp(x, center=T, scale=T)giống như làm (x-mean) / sd. Trong ví dụ này, bạn sẽ thấy rằng không thành phần chính nào là phân biệt đối xử tốt giữa các lớp; nó chỉ hoạt động nếu cả hai được sử dụng cùng nhau.
Flounderer

Tôi hiểu rằng các PC là bổ sung nhưng có lời giải thích nào đằng sau điều này? Thành thật mà nói, đây là lần đầu tiên tôi có được PC1 yếu hơn so với những người khác.
Frida

@Frida: bình luận của ttnphns là trên mục tiêu. Xem en.wikipedia.org/wiki/Linear_discriminant_analysis đoạn thứ ba. Trong một số trường hợp, may mắn là PCA trở nên hữu ích thường xuyên.
Wayne

6

Tôi cho rằng câu trả lời và ví dụ được cung cấp bởi @Flounderer ngụ ý điều này, nhưng tôi nghĩ rằng nó đáng để đánh vần nó. Phân tích thành phần chính (PCA) là nhãn (phân loại) không phân biệt. Tất cả những gì nó làm là biến đổi một số dữ liệu chiều cao sang không gian chiều khác. Ví dụ, nó có thể giúp phân loại các nỗ lực phân loại bằng cách tạo tập dữ liệu dễ phân tách hơn bằng một phương thức cụ thể. Tuy nhiên, đây chỉ là sản phẩm phụ (hoặc tác dụng phụ) của PCA.


1

Khi chúng tôi phân tích Thành phần chính, các thành phần chính tương ứng với các hướng biến đổi tối đa, chúng không đảm bảo phân biệt hoặc tách biệt tối đa giữa các lớp.

Vì vậy, thành phần thứ 2 cung cấp cho bạn phân loại tốt có nghĩa là dữ liệu theo hướng đó cho phép bạn phân biệt tốt hơn giữa các lớp. Khi bạn thực hiện Phân tích phân biệt tuyến tính (LDA), nó cung cấp cho bạn các thành phần hướng trực giao tốt nhất nhằm tối đa hóa khoảng cách giữa các lớp và giảm thiểu khoảng cách giữa các lớp.

Vì vậy, nếu bạn thực hiện LDA trên dữ liệu thay vì PCA, có lẽ một trong những thành phần đầu tiên sẽ gần với PC6 hơn là PC1. Hi vọng điêu nay co ich.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.