Tóm lại: Tối đa hóa lề có thể được xem là thường xuyên hóa giải pháp bằng cách giảm thiểu (về cơ bản là giảm thiểu độ phức tạp của mô hình), điều này được thực hiện cả trong phân loại và hồi quy. Nhưng trong trường hợp phân loại, việc tối thiểu hóa này được thực hiện trong điều kiện tất cả các ví dụ được phân loại chính xác và trong trường hợp hồi quy với điều kiện giá trị của tất cả các ví dụ sai lệch ít hơn độ chính xác cần thiết từ cho hồi quy .y ϵ f ( x )wyεf( x )
Để hiểu cách bạn đi từ phân loại đến hồi quy, sẽ giúp xem cả hai trường hợp áp dụng cùng một lý thuyết SVM để hình thành vấn đề như một vấn đề tối ưu hóa lồi. Tôi sẽ thử đặt cả hai bên cạnh nhau.
(Tôi sẽ bỏ qua các biến chùng cho phép phân loại sai và sai lệch trên độ chính xác )ε
Phân loại
Trong trường hợp này, mục tiêu là tìm một hàm trong đó cho các ví dụ tích cực và cho các ví dụ tiêu cực. Trong các điều kiện này, chúng tôi muốn tối đa hóa lề (khoảng cách giữa 2 thanh màu đỏ), không gì khác hơn là giảm thiểu đạo hàm của .f ( x ) ≥ 1 f ( x ) ≤ - 1 f ' = wf( x ) = w x + bf( X ) ≥ 1f( X ) ≤ - 1f′=w
Trực giác đằng sau tối đa hóa lợi nhuận là điều này sẽ cho chúng ta một giải pháp duy nhất cho vấn đề tìm (ví dụ chúng ta loại bỏ đường màu xanh) và giải pháp này là chung nhất trong các điều kiện này, tức là nó hoạt động như một quy tắc . Điều này có thể được nhìn thấy, xung quanh ranh giới quyết định (nơi các đường màu đỏ và đen giao nhau) độ không đảm bảo phân loại là lớn nhất và chọn giá trị thấp nhất cho trong khu vực này sẽ mang lại giải pháp chung nhất.f ( x )f(x)f(x)
Các điểm dữ liệu tại 2 thanh màu đỏ là các vectơ hỗ trợ trong trường hợp này, chúng tương ứng với các số nhân Lagrange khác không của phần bằng của các điều kiện bất đẳng thức vàf ( x ) ≤ - 1f(x)≥1f(x)≤−1
hồi quy
Trong trường hợp này, mục tiêu là tìm hàm (đường màu đỏ) với điều kiện nằm trong độ chính xác bắt buộc từ giá trị (thanh màu đen) của mọi điểm dữ liệu, nghĩa là trong đó là khoảng cách giữa đường màu đỏ và màu xám. Trong điều kiện này, một lần nữa chúng tôi muốn giảm thiểu , một lần nữa vì lý do chính quy hóa và để có được một giải pháp duy nhất là kết quả của vấn đề tối ưu hóa lồi. Người ta có thể thấy cách tối thiểu hóa dẫn đến trường hợp tổng quát hơn vì giá trị cực trị củaf(x)=wx+bf(x)ϵy(x)|y(x)−f(x)|≤ϵepsilonf′(x)=www=0 sẽ có nghĩa là không có mối quan hệ chức năng nào là kết quả chung nhất mà người ta có thể thu được từ dữ liệu.
Các điểm dữ liệu tại 2 thanh màu đỏ là các vectơ hỗ trợ trong trường hợp này, chúng tương ứng với các số nhân Lagrange khác không của phần bằng của điều kiện bất đẳng thức .|y−f(x)|≤ϵ
Phần kết luận
Cả hai trường hợp dẫn đến vấn đề sau:
min12w2
Trong điều kiện:
- Tất cả các ví dụ được phân loại chính xác (Phân loại)
- Giá trị của tất cả các ví dụ sai lệch ít hơn so với . (Hồi quy)ϵ f ( x )yϵf(x)