Có cách nào để sử dụng hồi quy logistic để phân loại dữ liệu đa nhãn không? Theo đa nhãn, ý tôi là dữ liệu có thể thuộc nhiều loại cùng một lúc.
Tôi muốn sử dụng phương pháp này để phân loại một số dữ liệu sinh học.
Có cách nào để sử dụng hồi quy logistic để phân loại dữ liệu đa nhãn không? Theo đa nhãn, ý tôi là dữ liệu có thể thuộc nhiều loại cùng một lúc.
Tôi muốn sử dụng phương pháp này để phân loại một số dữ liệu sinh học.
Câu trả lời:
Tôi nguyên tắc, có - tôi không chắc chắn rằng các kỹ thuật này vẫn được gọi là hồi quy logistic.
Trên thực tế, câu hỏi của bạn có thể đề cập đến hai phần mở rộng độc lập cho các phân loại thông thường:
Bạn có thể yêu cầu tổng số thành viên cho mỗi trường hợp là một ("thế giới khép kín" = trường hợp thông thường)
hoặc loại bỏ ràng buộc này (đôi khi được gọi là "phân loại một lớp")
Điều này có thể được đào tạo bởi nhiều mô hình LR độc lập mặc dù một lớp các vấn đề thường không được đặt ra (lớp này so với tất cả các loại ngoại lệ có thể nằm ở mọi hướng) và sau đó LR không đặc biệt phù hợp.
Tư cách thành viên lớp một phần: mỗi trường hợp thuộc về thành viên cho mỗi lớp, tương tự như tư cách thành viên trong phân tích cụm mờ:
Giả sử có 3 lớp A, B, C. Sau đó, một mẫu có thể được gắn nhãn là thuộc về lớp B. Điều này cũng có thể được viết dưới dạng vector thành viên . Trong ký hiệu này, các thành viên một phần sẽ là v.v.
giải thích khác nhau có thể được áp dụng, tùy thuộc vào vấn đề (thành viên mờ hoặc xác suất):
để dự đoán, ví dụ xác suất sau không chỉ có thể mà còn thực sự khá phổ biến
và thậm chí xác nhận
Toàn bộ ý tưởng của điều này là đối với các trường hợp đường biên, có thể không thể gán chúng rõ ràng cho một lớp.
Trong R ví dụ nnet:::multinom
, một phần của MASS không chấp nhận dữ liệu đó để đào tạo. Một ANN với sigmoid logistic và không có bất kỳ lớp ẩn nào được sử dụng đằng sau hậu trường.
Tôi đã phát triển gói softclassval
cho phần xác nhận.
Các trình phân loại một lớp được giải thích độc đáo trong Richard G. Brereton: chemometrics for Pattern Recognition, Wiley, 2009.
Chúng tôi sẽ thảo luận chi tiết hơn về các thành viên một phần trong bài báo này: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert & Reiner Salzer: Phân loại phổ Raman của các mô tế bào hình sao: sử dụng thông tin tham khảo mềm. Bioanal Chem, 2011, Tập. 400 (9), trang 2801-2816
Một cách đơn giản để thực hiện phân loại đa nhãn với phân loại nhiều lớp (chẳng hạn như hồi quy logistic đa thức) là gán từng phép gán nhãn có thể cho lớp riêng của nó. Ví dụ: nếu bạn đang thực hiện phân loại đa nhãn nhị phân và có 3 nhãn, bạn có thể chỉ định
[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2
Vượt ra ngoài điều này và những gì được đề xuất bởi những người khác, có lẽ bạn sẽ muốn xem xét các thuật toán dự đoán có cấu trúc như các trường ngẫu nhiên có điều kiện.
Vấn đề này cũng liên quan đến việc học nhạy cảm với chi phí trong đó việc dự đoán nhãn cho mẫu có thể có chi phí. Đối với các mẫu đa nhãn, chi phí cho các nhãn đó thấp trong khi chi phí cho các nhãn khác cao hơn.
Bạn có thể xem hướng dẫn này mà bạn cũng có thể tìm thấy các slide tương ứng ở đây .