Về nguyên tắc:
Đưa ra dự đoán của bạn bằng một mô hình duy nhất được đào tạo trên toàn bộ tập dữ liệu (vì vậy chỉ có một bộ tính năng). Xác thực chéo chỉ được sử dụng để ước tính hiệu suất dự đoán của mô hình duy nhất được đào tạo trên toàn bộ tập dữ liệu. Đó là VITAL trong việc sử dụng xác thực chéo mà trong mỗi lần bạn lặp lại toàn bộ quy trình được sử dụng để phù hợp với mô hình chính, vì nếu không, bạn có thể kết thúc với sự thiên vị lạc quan đáng kể trong hiệu suất.
Để xem tại sao điều này xảy ra, hãy xem xét một vấn đề phân loại nhị phân với 1000 tính năng nhị phân nhưng chỉ có 100 trường hợp, trong đó các trường hợp và tính năng hoàn toàn ngẫu nhiên, do đó không có mối quan hệ thống kê nào giữa các tính năng và trường hợp nào. Nếu chúng tôi đào tạo một mô hình chính trên bộ dữ liệu đầy đủ, chúng tôi luôn có thể đạt được lỗi không trên tập huấn luyện vì có nhiều tính năng hơn các trường hợp. Chúng ta thậm chí có thể tìm thấy một tập hợp các tính năng "thông tin" (điều đó có thể tương quan với sự tình cờ). Sau đó, nếu chúng tôi thực hiện xác thực chéo chỉ sử dụng các tính năng đó, chúng tôi sẽ có được ước tính hiệu suất tốt hơn so với đoán ngẫu nhiên. Lý do là trong mỗi lần của quy trình xác thực chéo, có một số thông tin về các trường hợp được sử dụng để kiểm tra vì các tính năng đã được chọn vì chúng tốt cho việc dự đoán, tất cả chúng, bao gồm cả những người tổ chức. Tất nhiên tỷ lệ lỗi thực sự sẽ là 0,5.
Nếu chúng tôi áp dụng quy trình thích hợp và thực hiện lựa chọn tính năng trong mỗi lần gấp, sẽ không còn bất kỳ thông tin nào về các trường hợp được tổ chức trong lựa chọn các tính năng được sử dụng trong lần đó. Nếu bạn sử dụng quy trình thích hợp, trong trường hợp này, bạn sẽ nhận được tỷ lệ lỗi khoảng 0,5 (mặc dù nó sẽ thay đổi một chút cho các lần thực hiện khác nhau của bộ dữ liệu).
Những giấy tờ tốt để đọc là:
Barshe Ambroise, Geoffrey J. McLachlan, "Lựa chọn sai lệch trong chiết xuất gen trên cơ sở dữ liệu biểu hiện gen microarray", PNAS http://www.pnas.org/content/99/10/6562.abab
có liên quan cao đến OP và
Gavin C. Cawley, Nicola LC Talbot, "Về sự phù hợp quá mức trong lựa chọn mô hình và xu hướng lựa chọn tiếp theo trong đánh giá hiệu suất", JMLR 11 (tháng 7): 2079−2107, 2010 http://jmlr.csail.mit.edu/ con /v11/cawley10a.html
điều này chứng tỏ rằng điều tương tự có thể dễ dàng tạo ra trong lựa chọn mô hình (ví dụ: điều chỉnh siêu tham số của một SVM, cũng cần phải được lặp lại trong mỗi lần lặp của quy trình CV).
Trong thực tế:
Tôi sẽ khuyên bạn nên sử dụng Đóng bao và sử dụng lỗi xuất túi để ước tính hiệu suất. Bạn sẽ nhận được một mô hình ủy ban sử dụng nhiều tính năng, nhưng đó thực sự là một điều tốt. Nếu bạn chỉ sử dụng một mô hình duy nhất, có khả năng bạn sẽ phù hợp với tiêu chí lựa chọn tính năng và kết thúc với một mô hình đưa ra dự đoán kém hơn so với mô hình sử dụng số lượng tính năng lớn hơn.
Cuốn sách của Alan Millers về lựa chọn tập hợp con trong hồi quy (chuyên khảo về Chapman và Hall về thống kê và xác suất áp dụng, tập 95) đưa ra một lời khuyên tốt (trang 221) rằng nếu hiệu suất dự đoán là điều quan trọng nhất, thì đừng thực hiện bất kỳ lựa chọn tính năng nào , chỉ sử dụng hồi quy sườn thay thế. Và đó là trong một cuốn sách về lựa chọn tập hợp con !!! ; o)