Nên lựa chọn tính năng chỉ được thực hiện trên dữ liệu đào tạo (hoặc tất cả dữ liệu)? Tôi đã trải qua một số cuộc thảo luận và bài báo như Guyon (2003) và Singhi và Liu (2006) , nhưng vẫn không chắc chắn về câu trả lời đúng.
Thiết lập thử nghiệm của tôi như sau:
- Bộ dữ liệu: Kiểm soát 50 bệnh nhân & 50 bệnh nhân mắc bệnh (cca 200 tính năng có thể liên quan đến dự đoán bệnh).
- Nhiệm vụ là chẩn đoán bệnh dựa trên các tính năng có sẵn.
Những gì tôi làm là
- Lấy toàn bộ dữ liệu và thực hiện lựa chọn tính năng (FS). Tôi chỉ giữ các tính năng được chọn để xử lý thêm
- Chia để kiểm tra và đào tạo, phân loại đào tạo sử dụng dữ liệu đào tạo và các tính năng được chọn. Sau đó, áp dụng trình phân loại để kiểm tra dữ liệu (chỉ sử dụng các tính năng được chọn). Xác nhận bỏ qua một lần được sử dụng.
- đạt được độ chính xác phân loại
- Tính trung bình: lặp lại 1) -3) N lần. (100).
Tôi đồng ý rằng việc thực hiện FS trên toàn bộ dữ liệu có thể đưa ra một số sai lệch, nhưng ý kiến của tôi là nó được "tính trung bình" trong quá trình tính trung bình (bước 4). Đúng không? (Phương sai chính xác là )
1 Guyon, I. (2003) "Giới thiệu về lựa chọn biến và tính năng", Tạp chí nghiên cứu máy học, số. 3, tr. 1157-1182
2 Singhi, SK và Liu, H. (2006) "Xu hướng lựa chọn tập hợp tính năng cho việc học phân loại", Tiến hành ICML '06 Kỷ yếu của hội nghị quốc tế lần thứ 23 về Học máy, trang 849-856