Tại sao tính toàn cầu được chẩn đoán bởi Bartlett's Test có nghĩa là PCA không phù hợp?


14

Tôi hiểu rằng Thử nghiệm của Bartlett có liên quan đến việc xác định xem các mẫu của bạn có từ các quần thể có phương sai bằng nhau hay không.

Nếu các mẫu từ các quần thể có phương sai bằng nhau, thì chúng ta không từ chối giả thuyết khống về thử nghiệm và do đó phân tích thành phần chính là không phù hợp.

Tôi không chắc vấn đề với tình huống này (có bộ dữ liệu homoskedastic) nằm ở đâu. Vấn đề với việc có một tập dữ liệu trong đó phân phối cơ bản của tất cả dữ liệu của bạn là như nhau? Tôi chỉ không thấy vấn đề lớn nếu điều kiện này tồn tại. Tại sao điều này làm cho PCA không phù hợp?

Tôi dường như không thể tìm thấy bất kỳ thông tin tốt ở bất cứ đâu trực tuyến. Có ai có bất kỳ kinh nghiệm nào trong việc diễn giải lý do tại sao bài kiểm tra này có liên quan đến PCA không?

Câu trả lời:


15

Để trả lời cho tiêu đề câu hỏi.

1

Bây giờ hãy tưởng tượng rằng đám mây đa biến là hình cầu hoàn hảo (tức là ma trận hiệp phương sai của nó tỷ lệ thuận với ma trận danh tính). Sau đó, 1) mọi kích thước tùy ý có thể phục vụ các thành phần chính, vì vậy giải pháp PCA không phải là duy nhất; 2) tất cả các thành phần có cùng phương sai (giá trị riêng), vì vậy PCA không thể giúp giảm dữ liệu.

Hãy tưởng tượng trường hợp thứ hai trong đó đám mây đa biến là ellipsoid với độ thuôn dọc theo trục của các biến (tức là ma trận hiệp phương sai của nó là đường chéo: tất cả các giá trị đều bằng 0 trừ đường chéo). Khi đó vòng quay ngụ ý chuyển đổi PCA sẽ bằng không; các thành phần chính là các biến, chỉ được sắp xếp lại và có chủ ý đăng nhập lại. Đây là một kết quả tầm thường: không cần PCA để loại bỏ một số kích thước yếu để giảm dữ liệu.


1


13

Dường như có hai bài kiểm tra gọi là bài kiểm tra của Bartlett . Một trong những bạn đã tham chiếu (1937) xác định xem các mẫu của bạn là từ các quần thể có phương sai bằng nhau. Một cái khác xuất hiện để kiểm tra xem ma trận tương quan cho một tập hợp dữ liệu có phải là ma trận danh tính (1951) hay không. Điều có ý nghĩa hơn là bạn sẽ không chạy PCA trên dữ liệu với ma trận tương quan danh tính, vì bạn sẽ chỉ lấy lại các biến ban đầu của mình vì chúng đã không tương thích. So sánh, ví dụ,


2
+1 Điều này giải quyết những nhầm lẫn tốt hơn so với câu trả lời khác.
HelloWorld
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.