Để đo lỗi tổng quát hóa, bạn cần thực hiện sau: một PCA riêng cho mỗi tập huấn luyện (có nghĩa là thực hiện một PCA riêng cho mỗi phân loại và cho mỗi lần gấp CV).
Sau đó, bạn áp dụng phép chuyển đổi tương tự cho tập kiểm tra: tức là bạn không thực hiện PCA riêng trên tập kiểm tra! Bạn trừ đi giá trị trung bình (và nếu cần chia cho độ lệch chuẩn) của tập huấn luyện, như được giải thích ở đây: Không tập trung vào tập kiểm tra sau PCA trên tập huấn luyện . Sau đó, bạn chiếu dữ liệu lên PC của tập huấn luyện.
Bạn sẽ cần xác định một tiêu chí tự động cho số lượng PC sẽ sử dụng.
Vì đây chỉ là bước giảm dữ liệu đầu tiên trước khi phân loại "thực tế", sử dụng quá nhiều PC có thể sẽ không ảnh hưởng đến hiệu suất. Nếu bạn có một kỳ vọng có bao nhiêu PC sẽ tốt từ kinh nghiệm, bạn có thể chỉ cần sử dụng nó.
Sau đó, bạn cũng có thể kiểm tra xem việc làm lại PCA cho mọi mô hình thay thế có cần thiết hay không (lặp lại phân tích chỉ với một mô hình PCA). Tôi nghĩ rằng kết quả của bài kiểm tra này là đáng báo cáo.
Tôi đã từng đo độ lệch của việc không lặp lại PCA và thấy rằng với dữ liệu phân loại quang phổ của mình, tôi chỉ phát hiện được một nửa tỷ lệ lỗi tổng quát hóa khi không làm lại PCA cho mỗi mô hình thay thế.
Điều đó đang được nói, bạn có thể xây dựng một mô hình PCA bổ sung của toàn bộ tập dữ liệu cho mục đích mô tả (ví dụ trực quan hóa). Chỉ cần chắc chắn rằng bạn giữ hai cách tiếp cận tách biệt với nhau.
Tôi vẫn cảm thấy khó có được cảm giác về việc một PCA ban đầu trên toàn bộ tập dữ liệu sẽ làm sai lệch kết quả mà không nhìn thấy các nhãn lớp.
Nhưng nó thấy dữ liệu. Và nếu phương sai giữa các lớp lớn so với phương sai trong lớp, phương sai giữa các lớp sẽ ảnh hưởng đến phép chiếu PCA. Thông thường bước PCA được thực hiện vì bạn cần ổn định phân loại. Đó là, trong một tình huống mà các trường hợp bổ sung có ảnh hưởng đến mô hình.
Nếu phương sai giữa các lớp là nhỏ, sai lệch này sẽ không nhiều, nhưng trong trường hợp đó, PCA sẽ không giúp phân loại: phép chiếu PCA sau đó không thể giúp nhấn mạnh sự tách biệt giữa các lớp.
caret
gói: PCA và Xác thực chéo k-Fold trong Caret .