Khi nào Naive Bayes hoạt động tốt hơn SVM?


17

Trong một vấn đề phân loại văn bản nhỏ mà tôi đang xem xét, Naive Bayes đã thể hiện một hiệu suất tương tự hoặc lớn hơn một SVM và tôi đã rất bối rối.

Tôi đã tự hỏi những yếu tố nào quyết định chiến thắng của một thuật toán so với thuật toán kia. Có những tình huống không có điểm nào trong việc sử dụng Naive Bayes trên các SVM không? Ai đó có thể làm sáng tỏ về điều này?


1
Theo liên kết này để có hướng dẫn
q12

Câu trả lời:


27

Không có câu trả lời duy nhất nào là phương pháp phân loại tốt nhất cho một tập dữ liệu nhất định . Các loại phân loại khác nhau phải luôn luôn được xem xét cho một nghiên cứu so sánh trên một tập dữ liệu nhất định. Với các thuộc tính của tập dữ liệu, bạn có thể có một số manh mối có thể ưu tiên cho một số phương pháp. Tuy nhiên, vẫn nên thử nghiệm với tất cả, nếu có thể.

Naive Bayes Classifier (NBC) và Support Vector Machine (SVM) có các tùy chọn khác nhau bao gồm cả việc lựa chọn chức năng kernel cho mỗi loại. Cả hai đều nhạy cảm với tối ưu hóa tham số (nghĩa là lựa chọn tham số khác nhau có thể thay đổi đáng kể đầu ra của chúng) . Vì vậy, nếu bạn có kết quả cho thấy NBC hoạt động tốt hơn SVM. Điều này chỉ đúng với các tham số đã chọn. Tuy nhiên, đối với lựa chọn tham số khác, bạn có thể thấy SVM đang hoạt động tốt hơn.

Nói chung, nếu giả định về tính độc lập trong NBC được thỏa mãn bởi các biến của tập dữ liệu của bạn và mức độ chồng chéo của lớp là nhỏ (tức là ranh giới quyết định tuyến tính tiềm năng), NBC sẽ đạt được kết quả tốt. Ví dụ, đối với một số bộ dữ liệu, với việc tối ưu hóa bằng cách sử dụng lựa chọn tính năng trình bao bọc, NBC có thể đánh bại các phân loại khác. Ngay cả khi nó đạt được hiệu suất tương đương, NBC sẽ được mong muốn hơn vì tốc độ cao.

Tóm lại, chúng ta không nên thích bất kỳ phương pháp phân loại nào nếu nó vượt trội hơn các phương pháp khác trong một bối cảnh vì nó có thể thất bại nặng nề trong một phương thức khác. ( ĐÂY LÀ BÌNH THƯỜNG TRONG VẤN ĐỀ KHAI THÁC DỮ LIỆU ).


7
(+1) Cũng được gọi là không có định lý bữa trưa miễn phí . Mặc dù vậy, tôi không hoàn toàn đồng ý với so sánh độ nhạy của tham số (Cây quyết định đơn là một trong những cách tiếp cận nhạy cảm nhất IMHO), nhưng chúng ta không nên thảo luận về điều đó ở đây :).
steffen

@steffen, cảm ơn bình luận có giá trị của bạn. Có nhiều cách khác nhau để tối ưu hóa các mô hình và tôi đồng ý rằng chúng ta không thể khái quát mô hình nào lão hóa hơn trong mọi trường hợp. Đối với lựa chọn tính năng, DT, có lẽ, ít nhạy hơn NBC nhưng có thể không phải là trường hợp nói chung. Tôi sẽ chỉnh sửa câu trả lời để xem xét nhận xét của bạn và nếu bạn muốn, bạn cũng có thể chỉnh sửa nó. Cám ơn rất nhiều :).
soufanom

3
+1 cho nhận xét về độ nhạy tham số. Cũng cần lưu ý rằng phần lớn lý thuyết làm cơ sở cho các SVM áp dụng cho các mô hình có nhân cố định, vì vậy ngay khi bạn cố gắng tối ưu hóa các tham số siêu ( phải được thực hiện và thực hiện cẩn thận), phần lớn cơ sở lý thuyết không còn được áp dụng.
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.