Các số liệu tốt để đánh giá chất lượng của PCA phù hợp, để chọn số lượng các thành phần là gì?


10

Một số liệu tốt để đánh giá chất lượng phân tích thành phần chính (PCA) là gì?

Tôi đã thực hiện thuật toán này trên một tập dữ liệu. Mục tiêu của tôi là giảm số lượng tính năng (thông tin rất dư thừa). Tôi biết tỷ lệ phần trăm chênh lệch được giữ là một chỉ số tốt về lượng thông tin chúng tôi lưu giữ, liệu có các số liệu thông tin khác tôi có thể sử dụng để đảm bảo tôi đã xóa thông tin dư thừa và không 'mất' thông tin đó không?


3
Nói đúng ra, không có thông tin "dư thừa", trừ khi dữ liệu ban đầu của bạn hoàn toàn trùng khớp. Người ta thường thấy tỷ lệ phương sai được giữ lại ("chúng tôi đã sử dụng năm thành phần chính đầu tiên, chiếm 90% phương sai"). Tôi quan tâm đến việc xem các lựa chọn thay thế.
Stephan Kolassa

Vì một trong các thẻ của bạn là lý thuyết thông tin: Một cách gián tiếp để đánh giá liệu PCA có hoạt động hay không là kiểm tra các giả định theo lý thuyết thông tin cho chúng tôi biết rằng nó có mất thông tin thấp để giảm kích thước nhất định. Wiki cho biết điều này là như vậy khi dữ liệu của bạn là tổng tín hiệu gaussian cộng với nhiễu gaussian. vi.wikipedia.org/wiki/
Kẻ

Câu trả lời:


17

Tôi giả sử một phần của câu hỏi này là liệu số liệu khác có tồn tại bên cạnh phương sai phần trăm tích lũy (CPV) và cách tiếp cận cốt truyện tương tự hay không. Câu trả lời cho điều này là, vâng, nhiều .

Một bài báo tuyệt vời về một số tùy chọn là Valle 1999:

Nó vượt qua CPV, nhưng cũng phân tích song song, xác thực chéo, phương sai của lỗi tái cấu trúc (VRE), phương pháp dựa trên tiêu chí thông tin, v.v. Bạn có thể làm theo khuyến nghị của bài báo sau khi so sánh và sử dụng VRE, nhưng xác thực chéo dựa trên PRESS cũng hoạt động tốt theo kinh nghiệm của tôi và họ cũng nhận được kết quả tốt với điều đó. Theo kinh nghiệm của tôi, CPV thuận tiện và dễ dàng, và làm một công việc tốt, nhưng hai phương pháp đó thường tốt hơn.

Có nhiều cách khác để đánh giá mô hình PCA của bạn tốt như thế nào nếu bạn biết thêm về dữ liệu. Một cách là so sánh tải lượng PCA ước tính với tải thực sự nếu bạn biết chúng (mà bạn sẽ mô phỏng). Điều này có thể được thực hiện bằng cách tính toán độ lệch của các tải trọng ước tính cho các tải trọng thực. Sự thiên vị của bạn càng lớn, mô hình của bạn càng tệ. Để biết cách làm điều đó, bạn có thể xem bài báo này nơi họ sử dụng phương pháp này để so sánh các phương pháp. Tuy nhiên, không thể sử dụng được trong các trường hợp dữ liệu thực, nơi bạn không biết tải PCA thực sự. Điều này nói ít hơn về số lượng thành phần bạn đã loại bỏ, so với sai lệch của mô hình của bạn do ảnh hưởng của các quan sát bên ngoài, nhưng nó vẫn đóng vai trò là một thước đo chất lượng mô hình.


4
Liên kết đến giấy Valle, Li và Qin
Zhubarb

3

Ngoài ra còn có các biện pháp dựa trên các tiêu chí lý thuyết thông tin như

MDL của Rissanen (và các biến thể)


@user: 45382 Vâng, đó là một cái khác. Nó cũng được chạm vào trong các liên kết Zhubarb giấy đến.
Deathkill14

@ Deathkill14 đúng tôi đọc bài báo, các biện pháp lý thuyết thông tin được đề cập (trên thực tế là giải pháp thay thế tốt)
Nikos M.

Một bài viết lý thuyết tuyệt vời về MDL, MML và Bayesian: Vitany & Li, MDL lý tưởng và mối liên hệ của nó với chủ nghĩa Bayes citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.568580 . Ngoài ra các phương pháp lựa chọn mô hình khác như AIC và BIC là triển khai MDL một cách hiệu quả.
ggll
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.