Giải thích khoảng cách từ siêu phẳng trong SVM


14

Tôi có một vài nghi ngờ trong việc hiểu các SVM bằng trực giác. Giả sử chúng tôi đã đào tạo một mô hình SVM để phân loại bằng cách sử dụng một số công cụ tiêu chuẩn như SVMLight hoặc LibSVM.

  1. Khi chúng tôi sử dụng mô hình này để dự đoán dữ liệu thử nghiệm, mô hình sẽ tạo một tệp có giá trị "alpha" cho mỗi điểm kiểm tra. Nếu giá trị alpha dương, điểm kiểm tra thuộc về Lớp 1, thì điểm khác thuộc về Lớp 2. Bây giờ, chúng ta có thể nói rằng điểm kiểm tra có giá trị "alpha" lớn hơn thuộc về lớp tương ứng với xác suất "cao hơn" không?

  2. Tương tự như câu hỏi đầu tiên, khi chúng tôi có một SVM được đào tạo. Các SV nằm rất gần mặt phẳng siêu phẳng. Vậy điều đó có nghĩa là SV thuộc về lớp đó với xác suất cao? Chúng ta có thể liên hệ xác suất của một điểm thuộc về một lớp với khoảng cách từ "siêu phẳng" không? Giá trị "alpha" có biểu thị khoảng cách từ "siêu phẳng" không?

Cảm ơn vì đầu vào của bạn.


Tôi nghĩ câu trả lời là "không", nhưng tôi không đủ tham gia vào các SVM để cung cấp cho bạn câu trả lời đầy đủ. Câu trả lời ruột của tôi là khi bạn ở phía Đông của Bức tường Berlin, thì bạn cũng chỉ ở phía sai, cho dù bạn ở cách đó bao xa.
Arthur

scikits.learndự đoán_proba cho SVC và linear_model.SGDClassifier, tôi tin rằng chỉ dành cho phân loại nhị phân; Tôi đã không sử dụng nó mặc dù.
chối

Câu trả lời:


18

Hãy để tôi trả lời câu hỏi của bạn nói chung. SVM không phải là một mô hình xác suất. Một lý do là nó không tương ứng với khả năng bình thường hóa. Ví dụ trong regularized bình phương nhỏ nhất bạn có hàm tổn thất và regularizer w 2 2 . Vectơ trọng lượng có được bằng cách tối thiểu hóa tổng của hai. Tuy nhiên, điều này tương đương với việc tối đa hóa log-postior của w với dữ liệu p ( w | ( yiyiw,xib22w22w mà bạn có thể nhìn thấy được sản phẩm của khả năng Gaussian và Gaussian trước w ( Zp(w|(y1,x1),...,(ym,xm))1/Zexp(w22)iexp(yiw,xib22)wZđảm bảo rằng nó bình thường hóa). Bạn nhận được khả năng Gaussian từ hàm mất bằng cách lật dấu của nó và lũy thừa nó. Tuy nhiên, nếu bạn làm điều đó với chức năng mất của SVM, khả năng đăng nhập không phải là mô hình xác suất bình thường.

Có những nỗ lực để biến SVM thành một. Điều đáng chú ý nhất, đó là - tôi nghĩ - cũng được triển khai trong libsvm là:

John Platt: Kết quả xác suất cho các máy vectơ hỗ trợ và so sánh với các phương pháp khả năng thường xuyên (NIPS 1999): http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/ con / Platt1999.pdf

ααiSVαik(x,xi)+byy=iSVαik(x,xi)+b=w,ϕ(x)H+bwywwH=i,jSVαiαjk(xi,xj).


thnx for your explanation...will read the paper
Amit
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.