Tôi không thấy bài giảng, vì vậy tôi không thể nhận xét về những gì đã nói.
0,02 đô la của tôi: Nếu bạn muốn có được ước tính tốt về hiệu suất bằng cách lấy mẫu lại, bạn thực sự nên thực hiện tất cả các thao tác trong quá trình lấy mẫu lại thay vì trước đó. Điều này thực sự đúng với lựa chọn tính năng [1] cũng như các hoạt động không tầm thường như PCA. Nếu nó làm tăng tính không chắc chắn cho kết quả, hãy đưa nó vào mô hình lại.
Hãy suy nghĩ về hồi quy thành phần chính: PCA theo sau là hồi quy tuyến tính trên một số thành phần. PCA ước tính các tham số (có nhiễu) và số lượng thành phần cũng phải được chọn (các giá trị khác nhau sẽ dẫn đến kết quả khác nhau => nhiều nhiễu hơn).
Giả sử chúng tôi đã sử dụng 10 lần CV với sơ đồ 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
hoặc sơ đồ 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Cần phải rõ ràng hơn cách tiếp cận thứ hai sẽ tạo ra các ước tính lỗi phản ánh sự không chắc chắn gây ra bởi PCA, lựa chọn số lượng thành phần và hồi quy tuyến tính. Trong thực tế, CV trong sơ đồ đầu tiên không có ý tưởng gì trước nó.
Tôi có lỗi vì không phải lúc nào cũng thực hiện tất cả các thao tác với việc lấy mẫu lại, nhưng chỉ khi tôi không thực sự quan tâm đến ước tính hiệu suất (điều này là bất thường).
Có nhiều sự khác biệt giữa hai chương trình? Nó phụ thuộc vào dữ liệu và tiền xử lý. Nếu bạn chỉ định tâm và nhân rộng, có lẽ là không. Nếu bạn có một tấn dữ liệu, có thể không. Khi quy mô tập huấn giảm xuống, nguy cơ nhận được các ước tính kém sẽ tăng lên, đặc biệt là nếu n gần với p.
Tôi có thể nói một cách chắc chắn từ kinh nghiệm rằng không bao gồm lựa chọn tính năng được giám sát trong quá trình lấy mẫu lại là một ý tưởng thực sự tồi tệ (không có bộ đào tạo lớn). Tôi không thấy lý do tại sao tiền xử lý sẽ miễn dịch với điều này (ở một mức độ nào đó).
@mchangun: Tôi nghĩ rằng số lượng thành phần là một tham số điều chỉnh và bạn có thể muốn chọn nó bằng cách sử dụng các ước tính hiệu suất có thể khái quát hóa. Bạn có thể tự động chọn K sao cho ít nhất X% phương sai được giải thích và bao gồm quá trình đó trong quá trình lấy mẫu lại để chúng tôi tính đến nhiễu trong quy trình đó.
Tối đa
[1] Ambroise, C., & McLachlan, G. (2002). Lựa chọn sai lệch trong trích xuất gen trên cơ sở dữ liệu biểu hiện gen microarray. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia, 99 (10), 6562 Bóng6566.