Có ổn không khi cố gắng tìm tham số k PCA tốt nhất như chúng ta làm với các siêu đường kính khác?


7

Phân tích thành phần chính (PCA) được sử dụng để giảm dữ liệu n chiều thành dữ liệu k chiều để tăng tốc mọi thứ trong học máy. Sau khi PCA được áp dụng, người ta có thể kiểm tra số lượng phương sai của tập dữ liệu gốc còn lại trong tập dữ liệu kết quả. Một mục tiêu chung là giữ chênh lệch giữa 90% và 99%.

Câu hỏi của tôi là: nó có được coi là một cách thực hành tốt để thử các giá trị khác nhau của tham số k (kích thước của kích thước của tập dữ liệu kết quả) và sau đó kiểm tra kết quả của các mô hình kết quả dựa trên một số tập dữ liệu xác thực chéo giống như cách chúng tôi chọn giá trị tốt của các siêu âm khác như lambdas chính quy và ngưỡng?

Câu trả lời:


5

Bạn nhấn mạnh vào việc sử dụng một bộ xác nhận thay vì tập huấn luyện để chọn klà một thực hành tốt và nên được tuân theo. Tuy nhiên, chúng ta có thể làm tốt hơn nữa!

Thông số k trong PCAlà đặc biệt hơn một siêu tham số chung. Bởi vì, giải pháp choPCA(k) đã tồn tại trong PCA(K), cho K>k, đó là cái đầu tiên k Eigenvector (tương ứng với k Eigenvalues ​​lớn nhất) trong PCA(K). Do đó, thay vì chạyPCA(1), PCA(4), ... PCA(K) riêng về dữ liệu đào tạo, như chúng ta làm cho một siêu tham số nói chung, chúng ta chỉ cần chạy PCA(K) để có giải pháp cho tất cả k{1,..,K}.

Kết quả là, quá trình sẽ như sau:

  1. Chạy PCA cho lớn nhất chấp nhận được K trên tập huấn luyện
  2. Cốt truyện, hoặc chuẩn bị (k, phương sai) trên tập xác thực,
  3. Chọn k cung cấp phương sai tối thiểu chấp nhận được, ví dụ 90% hoặc 99%.

Và, xác thực chéo N-Fold sẽ như sau:

  1. Chạy PCA cho lớn nhất chấp nhận được K trên N nếp gấp
  2. Cốt truyện, hoặc chuẩn bị (k, trung bình của N phương sai) trên các nếp gấp được tổ chức,
  3. Chọn k cung cấp phương sai trung bình tối thiểu chấp nhận được, ví dụ 90% hoặc 99%.

Ngoài ra, đây là một bài viết liên quan hỏi "tại sao chúng ta chọn các thành phần chính dựa trên phương sai tối đa được giải thích?".


K-PCA có phải là tên chính xác cho việc này không? Nghe có vẻ hơi khó hiểu và làm tôi nhớ đến Phân tích thành phần chính của hạt nhân (KPCA), đây là phiên bản phi tuyến tính của PCA
Pedro Henrique Monforte

@PedroHenriqueMonforte Cảm ơn! Ký hiệu cập nhật.
Esmailian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.