Hồi quy logistic đa cấp


8

Có cách nào để sử dụng hồi quy logistic để phân loại dữ liệu đa nhãn không? Theo đa nhãn, ý tôi là dữ liệu có thể thuộc nhiều loại cùng một lúc.

Tôi muốn sử dụng phương pháp này để phân loại một số dữ liệu sinh học.


1
Bạn dường như đang mô tả hồi quy logistic đa thức. Có nhiều chủ đề ở đây thảo luận về chủ đề này: stats.stackexchange.com/search?q=multinomial+logistic
Macro

3
Hay bạn có nghĩa là một mốc thời gian có thể thuộc về nhiều hơn một loại?
vào

@onestop: Có, ý tôi là một điểm dữ liệu có thể thuộc về bất kỳ số lượng danh mục nào cùng một lúc.
dùng721975

@macro: Hồi quy logistic đa nhãn :-)
user721975

Nhìn vào tài liệu kinh tế lượng, ví dụ McFadden.
Frank Harrell

Câu trả lời:


11

Tôi nguyên tắc, có - tôi không chắc chắn rằng các kỹ thuật này vẫn được gọi là hồi quy logistic.

Trên thực tế, câu hỏi của bạn có thể đề cập đến hai phần mở rộng độc lập cho các phân loại thông thường:

  1. Bạn có thể yêu cầu tổng số thành viên cho mỗi trường hợp là một ("thế giới khép kín" = trường hợp thông thường)
    hoặc loại bỏ ràng buộc này (đôi khi được gọi là "phân loại một lớp")
    Điều này có thể được đào tạo bởi nhiều mô hình LR độc lập mặc dù một lớp các vấn đề thường không được đặt ra (lớp này so với tất cả các loại ngoại lệ có thể nằm ở mọi hướng) và sau đó LR không đặc biệt phù hợp.

  2. Tư cách thành viên lớp một phần: mỗi trường hợp thuộc về thành viên cho mỗi lớp, tương tự như tư cách thành viên trong phân tích cụm mờ: Giả sử có 3 lớp A, B, C. Sau đó, một mẫu có thể được gắn nhãn là thuộc về lớp B. Điều này cũng có thể được viết dưới dạng vector thành viên . Trong ký hiệu này, các thành viên một phần sẽ là v.v.[0,1]nclasseS
    [Một= =0,B= =1,C= =0][Một= =0,05,B= =0,95,C= =0]

    • giải thích khác nhau có thể được áp dụng, tùy thuộc vào vấn đề (thành viên mờ hoặc xác suất):

      • mờ: một trường hợp có thể thuộc một nửa vào lớp A và một nửa cho lớp C: [0,5, 0, 0,5]
      • xác suất: tham chiếu (ví dụ như một mẫu phân loại chuyên gia) chắc chắn 80% rằng nó thuộc về lớp A nhưng cho biết có 20% cơ hội tồn tại rằng đó là lớp C trong khi chắc chắn rằng nó không phải là lớp B (0%): [0,8, 0 , 0,2].
      • một xác suất khác: phiếu chuyên gia bỏ phiếu: 4 trên 5 chuyên gia nói "A", 1 nói "C": lại [0.8, 0, 0.2]
    • để dự đoán, ví dụ xác suất sau không chỉ có thể mà còn thực sự khá phổ biến

    • cũng có thể sử dụng nó để đào tạo
    • và thậm chí xác nhận

    • Toàn bộ ý tưởng của điều này là đối với các trường hợp đường biên, có thể không thể gán chúng rõ ràng cho một lớp.

    • Việc bạn muốn "làm cứng" một dự đoán mềm (ví dụ xác suất sau) thành nhãn lớp "bình thường" tương ứng với 100% thành viên của lớp đó là hoàn toàn tùy thuộc vào bạn. Bạn thậm chí có thể trả về kết quả "mơ hồ" cho xác suất sau trung gian. Đó là hợp lý phụ thuộc vào ứng dụng của bạn.

Trong R ví dụ nnet:::multinom, một phần của MASS không chấp nhận dữ liệu đó để đào tạo. Một ANN với sigmoid logistic và không có bất kỳ lớp ẩn nào được sử dụng đằng sau hậu trường.
Tôi đã phát triển gói softclassvalcho phần xác nhận.

Các trình phân loại một lớp được giải thích độc đáo trong Richard G. Brereton: chemometrics for Pattern Recognition, Wiley, 2009.

Chúng tôi sẽ thảo luận chi tiết hơn về các thành viên một phần trong bài báo này: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert & Reiner Salzer: Phân loại phổ Raman của các mô tế bào hình sao: sử dụng thông tin tham khảo mềm. Bioanal Chem, 2011, Tập. 400 (9), trang 2801-2816


Bạn có thể xây dựng?
dùng721975

@ user721975: Vẫn đang làm điều này ...
cbeleites không hài lòng với SX

Cảm ơn câu trả lời của bạn. Nếu tôi hiểu bạn đúng, tùy chọn 1 có nghĩa là bạn xây dựng một loạt các phân loại LR nhị phân (1 so với tất cả). Tôi không nghĩ rằng tôi có tùy chọn 2. Bạn có yêu cầu tôi xây dựng một LR sinlge cung cấp phân phối xác suất cho tất cả các lớp không? Câu hỏi sau đó là làm thế nào để tôi quyết định các lớp để gán dữ liệu? Một số loại ngưỡng? Làm thế nào?
dùng721975

@ user721975: phần 1: có. phần 2: Tôi sẽ chỉnh sửa câu trả lời để rõ hơn.
cbeleites không hài lòng với SX

@ user721975: (2) LR "đơn" hơi mơ hồ: ít nhất là nếu có nhiều hơn 2 lớp bạn có một mô hình đa phương thức. Có lẽ bạn cần cho chúng tôi biết thêm về ứng dụng của bạn để có câu trả lời chi tiết hơn.
cbeleites không hài lòng với SX

1

Một cách đơn giản để thực hiện phân loại đa nhãn với phân loại nhiều lớp (chẳng hạn như hồi quy logistic đa thức) là gán từng phép gán nhãn có thể cho lớp riêng của nó. Ví dụ: nếu bạn đang thực hiện phân loại đa nhãn nhị phân và có 3 nhãn, bạn có thể chỉ định

[0 0 0] = 0
[0 0 1] = 1
[0 1 0] = 2

23= =số 8

n2n

Vượt ra ngoài điều này và những gì được đề xuất bởi những người khác, có lẽ bạn sẽ muốn xem xét các thuật toán dự đoán có cấu trúc như các trường ngẫu nhiên có điều kiện.


0

Vấn đề này cũng liên quan đến việc học nhạy cảm với chi phí trong đó việc dự đoán nhãn cho mẫu có thể có chi phí. Đối với các mẫu đa nhãn, chi phí cho các nhãn đó thấp trong khi chi phí cho các nhãn khác cao hơn.

Bạn có thể xem hướng dẫn này mà bạn cũng có thể tìm thấy các slide tương ứng ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.