Hàm mất của SVM lề cứng là gì?


23

tối đa(0,1-ytôi(wxtôi+b))

12w2+CΣtôitối đa(0,1-ytôi(wxtôi+b))
w2tối đa(0,1-ytôi(wxtôi+b))

Tuy nhiên, đối với SVM lề cứng, toàn bộ hàm mục tiêu chỉ là

12w2
Điều đó có nghĩa là SVM lề cứng chỉ thu nhỏ bộ chỉnh âm mà không có bất kỳ hàm mất nào? Nghe có vẻ rất lạ.

Chà, nếu 12w2 là hàm mất trong trường hợp này, chúng ta có thể gọi nó là hàm mất bậc hai không? Nếu vậy, tại sao chức năng mất của SVM lề cứng trở thành chính quy trong SVM lề mềm và thực hiện thay đổi từ mất bậc hai sang mất bản lề?


Đối với những gì tôi hiểu, lề cứng có nghĩa là bạn không chấp nhận dữ liệu trong lề của mình. Do đó, tối đa (0, tính toán) sẽ luôn trả về 0.
fxm

Câu trả lời:


26

Thuật ngữ mất bản lề trong lề mềm SVM phạt các phân loại sai . Trong định nghĩa cứng SVM, theo định nghĩa, không có phân loại sai.imax(0,1yi(wxi+b))

Điều này thực sự có nghĩa là SVM lề cứng cố gắng giảm thiểu . Do công thức của bài toán SVM, lề là. Như vậy, tối thiểu hóa định mức của tương đương về mặt hình học với tối đa hóa lề. Chính xác những gì chúng ta muốn!w22/ww

Chính quy hóa là một kỹ thuật để tránh quá mức bằng cách xử phạt các hệ số lớn trong vectơ giải pháp. Trong lề cứng, SVM vừa là hàm mất vừa là định .w2L2

Trong SVM lề mềm, thuật ngữ mất bản lề cũng hoạt động như một bộ chỉnh âm nhưng trên các biến chùng thay vì và trong thay vì . quy hóa gây ra sự thưa thớt, đó là lý do tại sao SVM tiêu chuẩn thưa thớt về các vectơ hỗ trợ (ngược lại với SVM bình phương nhỏ nhất).L 1 L 2 L 1wL1L2L1


Bạn có thể giải thích hai đoạn cuối với một số chi tiết và toán học?
Nain

0

Chỉ cần làm rõ,

12w2
được tối thiểu hóa theo các ràng buộc rằng các điểm có thể phân tách tuyến tính (Tức là người ta có thể vẽ một siêu phẳng ngăn cách hoàn hảo hai điểm này). Nói cách khác, các giá trị được phép duy nhất của w mà chúng ta có thể coi là giải pháp là các giá trị tách biệt hai tập hợp điểm.

Bây giờ, người ta cho rằng SVM lề cứng "trang phục" dễ dàng hơn so với lề mềm. Điều này dễ hình dung hơn với RBF SVM với mức γ đủ cao , có thể tạo ra (quá mức) phức tạp và (có khả năng) ranh giới quyết định quá phù hợp. Biên độ càng khó (được mô phỏng không chính xác với "C" cao hơn), tìm kiếm sẽ càng khó tìm ra ranh giới quyết định phân loại hoàn hảo hai bộ điểm.

Khi chúng ta chuyển sang "lề mềm", các ràng buộc được nới lỏng và thay thế bằng sự hạn chế thông qua việc giới thiệu "chùng". Biến chùng này được định nghĩa bằng thuật ngữ "mất bản lề". Sau khi đơn giản hóa, một người đến bản lề + l2 giống như thời hạn mất tất cả mọi người liên kết với SVM. FWIW, tôi thích đóng khung các SVM như là một vấn đề tối ưu hóa thay vì vấn đề "theo dõi độ dốc" ở khắp mọi nơi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.