Có những ứng dụng mà SVM vẫn vượt trội?


10

Thuật toán SVM khá cũ - nó được phát triển vào những năm 1960, nhưng cực kỳ phổ biến vào những năm 1990 và 2000. Nó là một phần cổ điển (và khá đẹp) của các khóa học máy.

Ngày nay, dường như trong xử lý phương tiện (hình ảnh, âm thanh, v.v.), các mạng thần kinh hoàn toàn chiếm ưu thế, trong khi ở các khu vực khác, Gradient Boosting có vị trí rất mạnh.

Ngoài ra, trong các cuộc thi dữ liệu gần đây, tôi quan sát không có giải pháp dựa trên SVM.

Tôi đang tìm kiếm các ví dụ ứng dụng trong đó SVM vẫn cho kết quả hiện đại (tính đến năm 2016).

Cập nhật: Tôi muốn có một số ví dụ mà tôi có thể đưa ra, ví dụ như cho sinh viên / đồng nghiệp khi giải thích về SVM để nó không giống như cách tiếp cận hoàn toàn về mặt lý thuyết hoặc phản đối.


3
Cấp trên theo nghĩa nào? Một số chỉ số hiệu suất? Đào tạo một mạng lưới thần kinh sâu đòi hỏi một lượng thời gian máy tính đáng kể, nhưng tôi có thể đào tạo một SVM có thể sửa chữa được trên máy tính xách tay của mình.
Sycorax nói Phục hồi lại

@ user777 Ý tôi là số liệu phân loại / hồi quy thích hợp cho lĩnh vực ứng dụng, tất nhiên. Vấn đề với độ phức tạp tính toán cho DL rất quan trọng, nhưng đây là một chút ngoài phạm vi của câu hỏi này.
Alleo

Câu trả lời:


11

Theo bài báo Chúng ta có cần hàng trăm phân loại để giải quyết các vấn đề phân loại thế giới thực không? SVM cùng với Máy khởi động rừng ngẫu nhiên và Gradient là một trong những thuật toán phân loại hiệu suất hàng đầu cho một bộ lớn hơn 120 bộ dữ liệu (sử dụng độ chính xác làm số liệu).

Tôi đã lặp lại thí nghiệm của họ với một số sửa đổi và tôi nhận được ba phân loại này hoạt động tốt hơn các phân loại khác, nhưng vì định lý bữa trưa miễn phí nói rằng luôn có một vấn đề trong đó một số thuật toán khác hoạt động tốt hơn ba thuật toán này.

Vì vậy, có, tôi sẽ nói rằng SVM (với nhân Gaussian - đó là những gì tôi đã sử dụng) vẫn là một thuật toán có liên quan cho các bộ dữ liệu không liên quan đến phương tiện truyền thông.


Xin chào, cảm ơn đã phản hồi! Tôi đã thấy nghiên cứu thú vị này. Theo tôi hiểu, ý tưởng là để xem phân loại mang lại bao nhiêu mà không cần điều chỉnh nghiêm túc (trong khi nhà phân tích dữ liệu nên thực hiện điều chỉnh IMO). Một nghiên cứu liên quan đến khu vực sẽ được quan tâm nhiều hơn.
Alleo

1
Tôi nhớ rằng Delgado et tất cả đã không thực hiện một tìm kiếm rất chi tiết cho các siêu âm tốt nhất, nhưng nếu họ đã thực hiện một số tìm kiếm. Câu hỏi (mà tôi không có câu trả lời) là liệu một tìm kiếm chi tiết hơn cho các thuốc giảm huyết áp tốt nhất sẽ cho kết quả khác nhau. Nếu đó là sự thật thì điều đó có nghĩa là các thuật toán cạnh tranh với SVM nói chung có một đỉnh cực kỳ chính xác đối với các siêu âm cụ thể, mà tôi nghĩ là một yếu tố tiêu cực cho thuật toán.
Jacques Wainer

Ngoài ra một nhận xét nhỏ là bộ dữ liệu UCI (được sử dụng để kiểm tra) hầu hết khá nhỏ. Tôi tự hỏi nếu điều này có thể là lời giải thích cho kết quả kém của việc tăng? Hầu hết các thử thách kaggle (có nhiều dữ liệu) cho thấy hiệu năng vượt trội của GB.
Alleo

Tôi đồng ý các bộ dữ liệu là nhỏ. Đối với các bộ dữ liệu lớn hơn, hiện tại tôi đang sử dụng Rừng ngẫu nhiên - sẽ bắt đầu sử dụng GBM ngay khi tôi cảm thấy thoải mái hơn với các siêu dữ liệu - Tôi không biết mức độ nhạy cảm của GBM đối với chúng.
Jacques Wainer
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.