Làm thế nào để đào tạo một SVM thông qua backpropagation?


10

Tôi đã tự hỏi nếu có thể đào tạo một SVM (nói một tuyến tính, để làm cho mọi thứ dễ dàng) bằng cách sử dụng backpropagation?

Hiện tại, tôi đang ở trên một con đường, bởi vì tôi chỉ có thể nghĩ về việc viết đầu ra của trình phân loại

f(x;θ,b)= =sgn(θx-(b+1))= =sgn(g(x;θ,b))

Do đó, khi chúng tôi thử và tính toán "chuyền ngược" (lỗi lan truyền), chúng tôi sẽ nhận được kể từ đạo hàm của sgn(x)dsgn(x)

Ex= =Ef(x;θ,b)f(x;θ,b)x= =Ef(x;θ,b)sgn(g(x;θ,b))g(x;θ,b)g(x;θ,b)x= =δdsgn(z)dzθ= =δ0θ= =0
sgn(x)
dsgn(x)dx= ={0nếu x02δ(x)nếu x= =0

Tương tự, chúng tôi thấy rằng , có nghĩa là chúng tôi không thể gửi lại bất kỳ thông tin nào hoặc thực hiện cập nhật độ dốc!E/θ= =E/b= =0

Đưa cái gì?

Câu trả lời:


14

Bạn đúng rằng nếu bạn cố gắng tối ưu hóa trực tiếp độ chính xác của SVM trong các trường hợp huấn luyện, còn được gọi là mất 0-1, độ dốc sẽ biến mất. Đây là lý do tại sao mọi người không làm điều đó. :)

Mặc dù vậy, những gì bạn đang cố gắng thực hiện chưa thực sự là một SVM; nó chỉ là một phân loại tuyến tính chung. Một SVM đặc biệt phát sinh khi bạn thay thế chức năng mất 0-1 bằng một thay thế lồi được gọi là mất bản lề ; điều này tương đương với ý tưởng tối đa hóa lề là cốt lõi của ý tưởng về một SVM. Hàm mất này là (gần như) khác biệt; vấn đề duy nhất là nếu bất kỳ đầu ra nào chính xác tại điểm bản lề, điều này (a) xảy ra với xác suất bằng 0 theo các giả định hợp lý nhất và (b) thì bạn chỉ có thể sử dụng 0 hoặc 1 làm đạo hàm (hoặc bất cứ thứ gì ở giữa), trong trường hợp nào bạn đang thực hiện kỹ thuật hạ cấp.

Vì bạn đang nói về truyền bá, tôi sẽ cho rằng bạn ít nhất một chút quen thuộc với việc tối ưu hóa mạng lưới thần kinh. Vấn đề tương tự cũng xảy ra với các phân loại mạng thần kinh; đây là lý do tại sao mọi người sử dụng các chức năng mất khác ở đó quá.


Vì vậy, nếu tôi hiểu bạn một cách chính xác, bạn thực sự đang nói rằng một SVM tuyến tính có thể được nghĩ là NN 1 lớp - lớp đơn chỉ là một phép biến đổi tuyến tính, - với sự mất bản lề chức năng? Mộtx+b
StevieP

1
Có, một SVM tuyến tính về cơ bản tương đương với NN 1 lớp với kích hoạt tuyến tính trên nút đầu ra và được đào tạo thông qua mất bản lề.
Dougal

5

Nếu bạn chỉ quan tâm đến trường hợp tuyến tính thì hồi quy logistic (LR) là lựa chọn tốt hơn, vì nó vừa lồi vừa phân tích (bạn có thể muốn xử lý nó nếu bạn quan tâm đến việc chính quy hóa). Nhưng khi bạn đi phi tuyến tính, nơi phần khó khăn xuất hiện. Đối với các trường hợp phi tuyến tính, không có cách nào hợp lý để giữ mọi thứ lồi và phân tích, bạn sẽ cần phải hy sinh một trong hai. Trong mạng lưới thần kinh, bạn hy sinh sự lồi lõm và trong Svms bạn hy sinh sự biến đổi.

Nói một cách nghiêm túc, không có sự khác biệt giữa LR và SVM, các Svms chỉ dự đoán phía bên của đường thẳng nằm ở đâu, các LR cũng xem xét họ nằm cách ranh giới bao xa (trên đường biên giới hạn mà sigmoid cung cấp cho bạn xác suất 0,5 trong trường hợp của LR). Các SVM buộc phải thực hiện thỏa hiệp này vì đối với các hạt nhân phi tuyến tính, trực giác của khoảng cách từ một siêu phẳng cong (đại số là một thuật ngữ tốt hơn) không giống như trong trường hợp tuyến tính, trên thực tế, vấn đề giải quyết khoảng cách ngắn nhất từ ​​bề mặt siêu phẳng đến một điểm cụ thể là rất khó (khó hơn bản thân SVM), nhưng mặt khác, LinkedInnik nhận ra rằng chỉ dự đoán về phía nào của ranh giới một điểm nằm rất dễ dàng như trong thời gian O (1). Đây là cái nhìn sâu sắc thực sự đằng sau SVM, làm cho nó trở thành sự thay thế tối ưu lồi duy nhất có sẵn trong lý thuyết học thống kê. Nhưng cảm giác của tôi là bạn hy sinh quá nhiều, cả bản chất và tính xác suất đều bị mất. Nhưng đối với các trường hợp cụ thể như SVM trên mặt đất rất đáng tin cậy và cũng là mô hình khoa học hoàn toàn sai lệch không giống như các lựa chọn thay thế không lồi của nó.

Td


1
LR có ý nghĩa gì với bạn?
Sycorax nói Phục hồi lại

Hồi quy logistic @Sycorax
Franck Dernoncourt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.