Tôi sẽ cố gắng trả lời câu hỏi này với sự kết hợp của các bằng chứng được công bố, kinh nghiệm cá nhân và suy đoán.
A) Công bố bằng chứng.
Bài báo duy nhất tôi biết giúp trả lời câu hỏi là Delgado et al 2014 - Chúng ta có cần hàng trăm phân loại để giải quyết các vấn đề phân loại thế giới thực không? - JMLR chạy hàng trăm thuật toán và triển khai khác nhau trên 121 bộ dữ liệu cho đến UCI. Họ thấy rằng mặc dù RBF SVM không phải là thuật toán "tốt nhất" (đó là rừng ngẫu nhiên nếu tôi nhớ chính xác), nó nằm trong top 3 (hoặc 5).
Nếu bạn cho rằng lựa chọn bộ dữ liệu của họ là "mẫu tốt" cho các vấn đề trong thế giới thực, thì SVM chắc chắn là một thuật toán nên được thử trên các vấn đề mới nhưng trước tiên bạn nên thử rừng ngẫu nhiên!
Các giới hạn trong việc khái quát hóa kết quả đó là các bộ dữ liệu hầu như đều cao và gầy (n >> p), không thưa thớt - điều mà tôi suy đoán nên là vấn đề của RF và không lớn lắm (cả n và p).
Cuối cùng, vẫn còn trên các bằng chứng được công bố, tôi đề xuất hai trang web so sánh việc triển khai các khu rừng ngẫu nhiên khác nhau:
B) Kinh nghiệm cá nhân.
Tôi tin rằng các bài báo như Delgado et đều rất quan trọng đối với cộng đồng học máy, vì vậy tôi đã cố gắng sao chép kết quả của chúng trong một số điều kiện khác nhau. Tôi đã chạy khoảng 15 thuật toán khác nhau trên hơn 100 bộ dữ liệu nhị phân (từ bộ dữ liệu của Delgado). Tôi cũng nghĩ rằng tôi đã cẩn thận hơn trong việc lựa chọn siêu âm sau đó.
Kết quả của tôi là SVM là "thuật toán tốt nhất" (có nghĩa là thứ hạng 4,9). Tôi cho rằng SVM đã vượt qua RF vì bộ dữ liệu ban đầu chứa nhiều vấn đề đa kính - mà tôi sẽ thảo luận trong phần đầu cơ - nên là một vấn đề đối với SVM.
EDIT (ngày 16 tháng 6):
Nhưng RF là cách nhanh hơn và đó là thuật toán tốt thứ 2 (thứ hạng trung bình 5,6) theo sau là gbm (5,8), nnets (7.2), v.v.). Tôi đã không thử hồi quy logistic tiêu chuẩn trong các vấn đề này, nhưng tôi đã thử một mạng lưới đàn hồi (L1 và L2 thường xuyên LR) nhưng nó không hoạt động tốt (có nghĩa là thứ hạng 8.3) ~
Tôi chưa hoàn thành phân tích kết quả hoặc viết bài báo nên tôi thậm chí không thể chỉ ra một báo cáo kỹ thuật với kết quả. Hy vọng, trong một vài tuần tôi có thể chỉnh sửa lại câu trả lời này và chỉ ra một báo cáo kỹ thuật với kết quả.
Bài viết có sẵn tại http://arxiv.org/abs/1606.00930 Hóa ra sau khi phân tích đầy đủ RF và SVM gần như tương đương về tỷ lệ lỗi dự kiến và SVM là nhanh nhất (thật ngạc nhiên !!). Tôi không còn nhấn mạnh vào việc giới thiệu RF (trên cơ sở tốc độ).
Vì vậy, kinh nghiệm cá nhân của tôi là mặc dù SVM có thể giúp bạn có thêm một chút độ chính xác, nhưng hầu như luôn luôn là một lựa chọn tốt hơn để sử dụng RF.
Ngoài ra, đối với các vấn đề lớn hơn, có thể không thể sử dụng bộ giải SVM hàng loạt (Tôi chưa bao giờ sử dụng bộ giải SVM trực tuyến như LASVM hoặc các bộ khác).
Cuối cùng tôi chỉ sử dụng hồi quy logistic trong một tình huống. Tôi đã thực hiện một số kỹ thuật tính năng "dữ dội" về một vấn đề phân loại hình ảnh (chẳng hạn như - kết hợp hoặc không kết hợp hai mô tả khác nhau của hình ảnh và tính chiều của các mô tả). Và tôi đã sử dụng hồi quy logistic để chọn trong số nhiều lựa chọn thay thế (vì không có tìm kiếm siêu tham số trong LR). Khi chúng tôi giải quyết các tính năng tốt nhất (theo LR), chúng tôi đã sử dụng RF (chọn siêu âm tốt nhất) để có được phân loại cuối cùng.
C) Đầu cơ
Tôi chưa bao giờ nghiêm túc làm việc với các vấn đề đa kính, nhưng cảm giác của tôi là SVM không tốt cho chúng. Vấn đề không phải là vấn đề giữa các giải pháp một đấu một hoặc một so với tất cả, mà là tất cả các triển khai mà tôi biết, sẽ sử dụng cùng một siêu âm cho tất cả các phân loại (OVO hoặc OVA). Việc chọn các siêu đường kính chính xác cho SVM rất tốn kém đến nỗi không có cách triển khai nào tôi biết sẽ thực hiện tìm kiếm cho mỗi phân loại. Tôi suy đoán rằng đây là một vấn đề đối với SVM (nhưng không phải là vấn đề đối với RF !!).
Sau đó, một lần nữa, đối với các vấn đề đa kính, tôi sẽ đi thẳng đến RF.