Là xây dựng một phân loại đa lớp tốt hơn so với một số nhị phân?


18

Tôi cần phân loại URL thành các danh mục. Giả sử tôi có 15 danh mục mà tôi dự định không sử dụng mỗi URL.

Là một phân loại 15 cách tốt hơn? Nơi tôi có 15 nhãn và tạo các tính năng cho mỗi điểm dữ liệu.

Hoặc xây dựng 15 phân loại nhị phân, giả sử: Phim hoặc không phải phim và sử dụng các số tôi nhận được từ các phân loại này để xây dựng xếp hạng, để chọn danh mục tốt nhất, sẽ tốt hơn?

Câu trả lời:


12

Trước hết, bạn phải tự hỏi liệu vấn đề của bạn có phải là đa nhãn không (tức là một URL có thể thuộc về một số lớp) hay không (tức là một URL có thể chỉ thuộc về một lớp).

Nếu trước đây, hãy sử dụng pin của các phân loại nhị phân, bởi vì đây là cách mặc định để thực hiện các vấn đề đa nhãn.

Nếu sau này, câu trả lời phụ thuộc vào sự kết hợp của dữ liệu của bạn trông như thế nào, mục đích phân tích của bạn là gì và bạn đang sử dụng phương pháp nào - có lẽ bạn chỉ nên thử cả hai và chọn tốt nhất.
Chỉ lưu ý rằng một số phương thức (như SVM) thực sự không thể thực hiện phân loại đa lớp vì cách chúng được xác định và do đó sử dụng bên trong một bộ phân loại nhị phân.


báo cáo vấn đề của tôi đang xem xét giả định trước đây @mbq. Tôi biết có nhiều loại. và vâng, như bạn đã nói tôi đã quyết định chọn 15 phân loại nhị phân nhưng một lần nữa, tôi cần xếp hạng chúng để chọn một loại tốt nhất. Vì vậy, tôi sẽ thử thực hiện một phân loại cấp cao nhất bằng cách sử dụng các số tôi nhận được từ pin của phân loại nhị phân. Bạn có thấy vấn đề gì không?
madCode

Các SVM có thể thực hiện phân loại đa lớp. Phương pháp này rất giống với hồi quy softmax (xem "Về triển khai thuật toán của các máy vectơ dựa trên nhân đa lớp").
dùng1149913

4

Điều này sẽ phụ thuộc vào cách dữ liệu của bạn được phân tán. Có một ví dụ tuyệt vời được đưa ra gần đây cho một câu hỏi tương tự trong đó OP muốn biết liệu một hàm phân biệt tuyến tính duy nhất sẽ là phân loại tốt hơn để quyết định dân số A so với B hoặc C hoặc một dựa trên các hàm phân biệt tuyến tính tách biệt A, B và C. Một số người đã đưa ra một biểu đồ tán xạ màu rất đẹp để cho thấy cách sử dụng hai phân biệt đối xử sẽ tốt hơn một trong trường hợp đó. Tôi sẽ cố gắng liên kết với nó.


Treo lên. Tôi gặp khó khăn khi tìm nó nhưng tôi sẽ tiếp tục tìm kiếm.
Michael R. Chernick

Xin lỗi vì không thể tìm thấy liên kết. Hãy tưởng tượng một đám mây một màu ở bên trái, một màu khác ở giữa và một phần ba ở bên phải. Hai dòng phân biệt tuyến tính sẽ làm tốt công việc tách nhóm giữa khỏi nhóm bên trái và bên phải nhưng không có dòng nào làm tốt cả. Bức tranh sẽ có giá trị hơn tất cả những từ này.
Michael R. Chernick

1
@MichaelCécick Đây có phải là liên kết bạn đang tìm kiếm?

Tôi nghĩ tôi hiểu những gì bạn đang nói: bit.ly/M1NydS - hình ảnh bạn xác định tôi đã gặp trong bài trình bày này. Phân loại 4 cách hoặc 3 cách..có thể trực tiếp. Nhưng .. tôi tự hỏi liệu độ chính xác / thu hồi sẽ bị tổn hại nếu phân loại 15 cách, Tiến sĩ Chernick.
madCode

@Procrastinator Cảm ơn bạn đã tìm thấy điều đó. tôi đã gặp rất nhiều khó khăn trong việc định vị nó và tôi đã mất rất nhiều thời gian để tìm kiếm! Đó là một bài viết gần đây vì vậy tôi mặc dù rất dễ tìm thấy.
Michael R. Chernick

1

Một số phương pháp xử lý tốt với đa lớp, Rừng ngẫu nhiên, MLP chẳng hạn.

Nếu bạn không muốn đi theo cách đó, thì có thể ECOC có thể thực hiện tốt 1-vs-All cho vấn đề của bạn, chỉ có thử nghiệm mới cho biết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.