Là gì lựa chọn biến / tính năng mà bạn thích để phân loại nhị phân khi có nhiều biến hơn / tính năng hơn so với quan sát trong tập học tập? Mục đích ở đây là để thảo luận về quy trình lựa chọn tính năng nào giúp giảm lỗi phân loại tốt nhất.
Chúng ta có thể sửa các ký hiệu cho tính nhất quán: vì , hãy để là tập hợp các quan sát từ nhóm . Vậy là kích thước của bộ học tập. Chúng tôi đặt là số lượng tính năng (tức là kích thước của không gian tính năng). Đặt biểu thị tọa độ thứ của .{ x i 1 , Mạnh , x i n i } i n 0 + n 1 = n p x [ i ] i x ∈ R p
Vui lòng cung cấp tài liệu tham khảo đầy đủ nếu bạn không thể cung cấp các chi tiết.
EDIT (cập nhật liên tục): Các thủ tục được đề xuất trong các câu trả lời dưới đây
- Lựa chọn chuyển tiếp tham lam Thủ tục lựa chọn biến để phân loại nhị phân
- Loại bỏ lạc hậu Quy trình lựa chọn biến để phân loại nhị phân
- Thủ tục quét đô thị / MCMC Quy trình lựa chọn biến để phân loại nhị phân
- hồi quy logistic bị phạt Thủ tục lựa chọn biến để phân loại nhị phân
Vì đây là wiki cộng đồng nên có thể có nhiều thảo luận và cập nhật hơn
Tôi có một nhận xét: theo một nghĩa nào đó, tất cả các bạn đều đưa ra một quy trình cho phép sắp xếp thứ tự các biến nhưng không phải chọn biến (bạn khá lảng tránh về cách chọn số lượng tính năng, tôi đoán tất cả các bạn đều sử dụng xác thực chéo?) Bạn có thể cải thiện câu trả lời theo hướng này? (vì đây là wiki cộng đồng, bạn không cần phải là người viết câu trả lời để thêm thông tin về cách chọn số lượng biến? Tôi đã mở một câu hỏi theo hướng này ở đây Xác thực chéo ở chiều rất cao (để chọn số lượng các biến được sử dụng trong phân loại chiều rất cao) )