Giả sử tôi đang làm việc trên một số vấn đề phân loại. (Phát hiện gian lận và nhận xét spam là hai vấn đề tôi đang xử lý ngay bây giờ, nhưng tôi tò mò về bất kỳ nhiệm vụ phân loại nào nói chung.)
Làm thế nào để tôi biết nên sử dụng phân loại nào?
- Cây quyết định
- SVM
- Bayes
- Mạng lưới thần kinh
- Hàng xóm K-gần nhất
- Học hỏi
- Thuật toán di truyền
- Quy trình quyết định của Markov
- Mạng lưới thần kinh chuyển đổi
- Hồi quy tuyến tính hoặc hồi quy logistic
- Tăng cường, đóng bao, đóng gói
- Leo đồi ngẫu nhiên hoặc ủ mô phỏng
- ...
Trong trường hợp nào là một trong những lựa chọn đầu tiên "tự nhiên" này, và các nguyên tắc để chọn cái đó là gì?
Ví dụ về loại câu trả lời tôi đang tìm kiếm (từ cuốn Giới thiệu về cuốn sách truy xuất thông tin của Manning và cộng sự ):
a. Nếu dữ liệu của bạn được gắn nhãn, nhưng bạn chỉ có một số lượng giới hạn, bạn nên sử dụng một bộ phân loại có độ lệch cao (ví dụ: Naive Bayes) .
Tôi đoán điều này là do một bộ phân loại thiên vị cao hơn sẽ có phương sai thấp hơn, điều này tốt vì lượng dữ liệu nhỏ.
b. Nếu bạn có rất nhiều dữ liệu, thì trình phân loại không thực sự quan trọng lắm, vì vậy có lẽ bạn chỉ nên chọn một trình phân loại có khả năng mở rộng tốt.
Hướng dẫn khác là gì? Ngay cả những câu trả lời như "nếu bạn sẽ phải giải thích mô hình của mình cho một số người quản lý cấp trên, thì có lẽ bạn nên sử dụng cây quyết định, vì các quy tắc quyết định khá minh bạch" là tốt. Tôi quan tâm ít hơn về các vấn đề thực hiện / thư viện, mặc dù.
Ngoài ra, đối với một câu hỏi hơi riêng biệt, bên cạnh các trình phân loại Bayes tiêu chuẩn, có "các phương pháp tiên tiến nhất" để phát hiện spam nhận xét (trái ngược với spam email) không?