Tại sao nó sai khi giải thích SVM là xác suất phân loại?


11

Sự hiểu biết của tôi về SVM là nó rất giống với hồi quy logistic (LR), tức là một tổng số các tính năng được truyền cho hàm sigmoid để có xác suất thuộc về một lớp, nhưng thay vì mất entropy chéo (logistic) chức năng, đào tạo được thực hiện bằng cách sử dụng mất bản lề. Lợi ích của việc sử dụng mất bản lề là người ta có thể thực hiện nhiều thủ thuật số khác nhau để làm cho quá trình nhân hóa hiệu quả hơn. Tuy nhiên, một nhược điểm là mô hình kết quả có ít thông tin hơn mô hình LR tương ứng có thể có. Vì vậy, ví dụ, nếu không có nhân (sử dụng nhân tuyến tính), ranh giới quyết định SVM vẫn sẽ ở cùng một vị trí nơi LR sẽ đưa ra xác suất 0,5, nhưng NHƯNG người ta không thể biết xác suất thuộc về một lớp phân rã nhanh như thế nào ranh giới quyết định.

Hai câu hỏi của tôi là:

  1. Là giải thích của tôi ở trên là chính xác?
  2. Làm thế nào để sử dụng mất bản lề làm cho nó không hợp lệ để diễn giải kết quả SVM là xác suất?

Câu trả lời:


8

xββ0y=sign(βx+β0)β,β0

Trong trường hợp SVM tuyến tính (không có kernel), ranh giới ranh giới quyết định sẽ tương tự như mô hình hồi quy logistic, nhưng có thể thay đổi tùy thuộc vào cường độ chính quy mà bạn đã sử dụng để phù hợp với SVM. Vì SVM và LR giải quyết các vấn đề tối ưu hóa khác nhau, bạn không được đảm bảo có các giải pháp giống hệt nhau cho ranh giới quyết định.

Có rất nhiều tài nguyên về SVM sẽ giúp làm rõ mọi thứ: đây là một ví dụ và một tài nguyên khác .


higgs boson Điều này rất hữu ích, cảm ơn bạn! Chỉ cần một vài câu hỏi tiếp theo: (1) bạn có thể đưa ra bất kỳ ví dụ trực quan nào không khi ranh giới quyết định SVM sẽ không giống với LR?, (2) là một trong những SVM tuyến tính và nói chung là tốt hơn so với cái kia, hoặc ở đó loại vấn đề nào là thích hợp hơn?
GingerBadger

2
Alex: nói chung, các SVM tuyến tính và LR thường hoạt động tương đương trong thực tế. Nếu bạn muốn một đầu ra xác suất, sau đó sử dụng LR. Nếu bạn chỉ quan tâm đến bài tập trên lớp, bạn có thể sử dụng một trong hai. Nếu bạn muốn có một ví dụ trong đó ranh giới quyết định của họ sẽ rất khác nhau, bạn có thể tưởng tượng một tập dữ liệu có thể phân tách tuyến tính với một số điểm của lớp sai cách xa ranh giới quyết định. Các ngoại lệ sẽ kéo ranh giới hồi quy logistic về phía mình, nhưng nếu bạn có một SVM với thời hạn chính quy đủ lớn, nó sẽ bỏ qua các ngoại lệ một cách hiệu quả.
tiếng cười khúc khích
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.