Chúng tôi có một bộ dữ liệu nhỏ (khoảng 250 mẫu * 100 tính năng) mà chúng tôi muốn xây dựng bộ phân loại nhị phân sau khi chọn tập hợp tính năng tốt nhất. Hãy nói rằng chúng tôi phân vùng dữ liệu thành:
Đào tạo, kiểm tra và kiểm tra
Để chọn tính năng, chúng tôi áp dụng mô hình trình bao bọc dựa trên việc chọn các tính năng tối ưu hóa hiệu suất của các phân loại X, Y và Z, riêng biệt. Trong bước tiền xử lý này, chúng tôi sử dụng dữ liệu đào tạo để đào tạo các trình phân loại và dữ liệu xác nhận để đánh giá mọi tập hợp tính năng ứng viên.
Cuối cùng, chúng tôi muốn so sánh các phân loại khác nhau (X, Y và Z). Tất nhiên, chúng ta có thể sử dụng phần kiểm tra dữ liệu để có sự so sánh và đánh giá công bằng. Tuy nhiên, trong trường hợp của tôi, dữ liệu thử nghiệm sẽ rất nhỏ (khoảng 10 đến 20 mẫu) và do đó, tôi muốn áp dụng xác thực chéo để đánh giá các mô hình.
Sự phân phối của các ví dụ tích cực và tiêu cực rất không cân bằng (khoảng 8: 2). Vì vậy, một xác nhận chéo có thể bỏ lỡ chúng tôi trong việc đánh giá hiệu suất. Để khắc phục điều này, chúng tôi dự định lấy phần thử nghiệm (10-20 mẫu) làm phương pháp so sánh thứ hai và để xác thực xác thực chéo.
Tóm lại, chúng tôi đang phân vùng dữ liệu thành đào tạo, xác nhận và thử nghiệm. Các bộ phận đào tạo và xác nhận sẽ được sử dụng để lựa chọn tính năng. Sau đó, xác nhận chéo trên cùng một dữ liệu sẽ được áp dụng để ước tính các mô hình. Cuối cùng, kiểm tra được sử dụng để xác nhận tính hợp lệ chéo cho sự mất cân bằng của dữ liệu.
Câu hỏi là: Nếu chúng ta sử dụng cùng một dữ liệu (đào tạo + xác thực) được sử dụng trong việc chọn các tính năng tối ưu hóa hiệu suất của phân loại X, Y và Z, chúng ta có thể áp dụng xác thực chéo trên cùng một dữ liệu (đào tạo + xác thực) được sử dụng cho lựa chọn tính năng để đo hiệu suất cuối cùng và so sánh các phân loại?
Tôi không biết liệu cài đặt này có thể dẫn đến một biện pháp xác thực chéo sai lệch và dẫn đến so sánh không chính đáng hay không.