Chọn thuật toán phân loại nhị phân


16

Tôi có một vấn đề phân loại nhị phân:

  • Khoảng 1000 mẫu trong tập huấn luyện
  • 10 thuộc tính, bao gồm nhị phân, số và phân loại

Thuật toán nào là sự lựa chọn tốt nhất cho loại vấn đề này?

Theo mặc định, tôi sẽ bắt đầu với SVM (sơ bộ có các giá trị thuộc tính danh nghĩa được chuyển đổi thành các tính năng nhị phân), vì nó được coi là tốt nhất cho dữ liệu tương đối sạch và không nhiễu.

Câu trả lời:


15

Thật khó để nói mà không biết thêm một chút về tập dữ liệu của bạn và cách tập dữ liệu của bạn dựa trên vectơ đặc trưng của bạn, nhưng tôi có thể khuyên bạn nên sử dụng rừng ngẫu nhiên cực kỳ trên các khu rừng ngẫu nhiên tiêu chuẩn vì tập mẫu tương đối nhỏ của bạn.

Các khu rừng ngẫu nhiên cực kỳ giống với các khu rừng ngẫu nhiên tiêu chuẩn với một ngoại lệ là thay vì tối ưu hóa sự phân chia trên cây, khu rừng ngẫu nhiên cực kỳ tạo ra sự phân chia ngẫu nhiên. Ban đầu điều này có vẻ như là một tiêu cực, nhưng nó thường có nghĩa là bạn có khả năng khái quát hóa và tốc độ tốt hơn đáng kể, mặc dù AUC trên tập huấn luyện của bạn có thể sẽ tệ hơn một chút.

Hồi quy logistic cũng là một đặt cược khá vững chắc cho các loại nhiệm vụ này, mặc dù với kích thước tương đối thấp và kích thước mẫu nhỏ của bạn, tôi sẽ lo lắng về việc quá mức. Bạn có thể muốn kiểm tra bằng cách sử dụng Hàng xóm gần nhất vì nó thường thực hiện rất tốt với các chiều thấp, nhưng nó thường không xử lý các biến phân loại rất tốt.

Nếu tôi phải chọn một mà không biết thêm về vấn đề, tôi chắc chắn sẽ đặt cược vào khu rừng ngẫu nhiên cực kỳ, vì rất có khả năng giúp bạn khái quát tốt về loại dữ liệu này và nó cũng xử lý kết hợp dữ liệu số và phân loại tốt hơn hơn hầu hết các phương pháp khác.


khỏe cảm ơn! Mặc dù chưa chắc chắn nếu tôi có thể sử dụng gói R "RandomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) để tạo ERF. Chắc là không.
IharS

12

Đối với các tham số thấp, kích thước mẫu khá hạn chế và hồi quy logistic phân loại nhị phân phải đủ mạnh. Bạn có thể sử dụng một thuật toán tiên tiến hơn nhưng có lẽ nó quá mức cần thiết.


5

Khi các biến phân loại được trộn lẫn, tôi tiếp cận với Rừng quyết định ngẫu nhiên, vì nó xử lý trực tiếp các biến phân loại mà không cần chuyển đổi mã hóa 1 trong n. Điều này mất ít thông tin.


5

Tuyến tính SVM nên là một điểm khởi đầu tốt. Hãy xem hướng dẫn này để chọn công cụ ước tính phù hợp.


2

Không khuyến khích sử dụng các phương pháp phức tạp trước. Sử dụng các cách tiếp cận đơn giản nhanh hơn ban đầu (kNN, NBC, v.v.), sau đó tiến triển thông qua hồi quy tuyến tính, hồi quy logistic, LDA, GIỎI (RF), KREG, và sau đó để bình phương tối thiểu SVM, chuyển đổi SVM, ANNs, và sau đó là metaheurustics (tham lam leo đồi heuristic với GA, trí thông minh bầy đàn, tối ưu hóa đàn kiến, v.v.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.