Chính xác thì đến từ đâu trong ràng buộc vấn đề tối ưu hóa SVM?


7

Tôi đã hiểu rằng các SVM là nhị phân, phân loại tuyến tính (không có thủ thuật kernel). Họ có dữ liệu huấn luyện trong đó là một vectơ và là lớp. Vì chúng là nhị phân, các phân loại tuyến tính, nhiệm vụ là tìm một siêu phẳng ngăn cách các điểm dữ liệu với nhãn khỏi các điểm dữ liệu có nhãn .(xi,yi)xiyi{1,1}1+1

Giả sử bây giờ, các điểm dữ liệu có thể phân tách tuyến tính và chúng ta không cần các biến chùng.

Bây giờ tôi đã đọc rằng vấn đề đào tạo bây giờ là vấn đề tối ưu hóa sau:

  • minw,b12w2
  • st yi(w,xi+b)1

Tôi nghĩ rằng tôi đã thu được tối thiểu hóa w2 có nghĩa là tối đa hóa lề (tuy nhiên, tôi không hiểu tại sao nó là hình vuông ở đây. Sẽ có gì thay đổi nếu ai đó cố gắng giảm thiểu w ?).

Tôi cũng hiểu rằng yi(w,xi+b)0 có nghĩa là mô hình phải chính xác trên dữ liệu đào tạo. Tuy nhiên, có 1 chứ không phải 0 . Tại sao?


Trong phép toán tối thiểu hóa (đạo hàm = 0), bình phương có thể trở thành một phương trình dễ dàng hơn
paparazzo

Xem thêm: Alexander Ihler: Support Vector Machines (1): Các SVM tuyến tính, dạng nguyên thủy trên YouTube. 25.01.2015.
Martin Thoma

Câu trả lời:


10

Vấn đề đầu tiên: Tối thiểu hóahoặc :ww2

Đó là chính xác mà người ta muốn tối đa hóa lợi nhuận. Điều này thực sự được thực hiện bằng cách tối đa hóa . Đây sẽ là cách "chính xác" để làm điều đó, nhưng nó khá bất tiện. Trước tiên hãy bỏ , vì nó chỉ là một hằng số. Bây giờ nếu là tối đa,sẽ phải càng nhỏ càng tốt. Do đó, chúng ta có thể tìm ra giải pháp giống hệt nhau bằng cách giảm thiểu.2w21ww w

wcó thể được tính bằng . Vì căn bậc hai là một hàm đơn điệu, bất kỳ điểm nào tối đa hóa cũng sẽ tối đa hóa . Để tìm điểm này do đó chúng ta không phải tính căn bậc hai và có thể giảm thiểu .wTwxf(x)f(x)xwTw=w2

Cuối cùng, như chúng ta thường phải tính toán các đạo hàm, chúng ta nhân toàn bộ biểu thức với một thừa số . Điều này được thực hiện rất thường xuyên, bởi vì nếu chúng ta suy ra và do đó . Đây là cách chúng tôi kết thúc với vấn đề: thu nhỏ .12ddxx2=2xddx12x2=x12w2

tl; dr : có, giảm thiểuthay vì sẽ hoạt động.w12w2

Vấn đề thứ hai: hoặc :01

Như đã nêu trong câu hỏi, có nghĩa là điểm phải nằm ở phía bên phải của siêu phẳng. Tuy nhiên điều này là không đủ: chúng tôi muốn điểm ít nhất là càng xa lề (thì điểm đó là một vectơ hỗ trợ), hoặc thậm chí xa hơn.yi(w,xi+b)0

Ghi nhớ định nghĩa của siêu phẳng,

H={xw,x+b=0} .

Tuy nhiên, mô tả này không phải là duy nhất: nếu chúng ta chia tỷ lệ và theo hằng số , thì chúng ta sẽ có được một mô tả tương đương của siêu phẳng này. Để đảm bảo thuật toán tối ưu hóa của chúng tôi không chỉ chia tỷ lệ và theo các yếu tố không đổi để có biên độ cao hơn, chúng tôi xác định rằng khoảng cách của vectơ hỗ trợ từ siêu phẳng luôn là , tức là lề là . Do đó, một vectơ hỗ trợ được đặc trưng bởi .wbcwb11wyi(w,xi+b)=1

Như đã đề cập trước đó, chúng tôi muốn tất cả các điểm là một vectơ hỗ trợ, hoặc thậm chí xa hơn siêu phẳng. Do đó, trong đào tạo, chúng tôi thêm ràng buộc , đảm bảo chính xác điều đó.yi(w,xi+b)1

tl; dr : Điểm đào tạo không chỉ cần chính xác, chúng phải ở ngoài lề hoặc xa hơn.


Chỉ để kiểm tra xem tôi có hiểu không: Thay vì viết chúng ta cũng có thể sử dụng bất kỳ hằng số và viết , trong đó ? 1ϵϵϵ>0
Martin Thoma

Về nguyên tắc, có. Ví dụ: trong các SVM lề mềm (nơi bạn cho phép một số phân loại sai hoặc các điểm trong lề), bạn sử dụng để bạn có thể được từ lề. Tất nhiên sau đó bạn cần một số thời hạn phạt mà hầu hết phải bằng 0 hoặc ít nhất là rất thấp. 1ξiξiξi
hbaderts

1
Tôi nghĩ trong nhận xét trên, Martin đã không hỏi về trường hợp lề mềm khi bạn thêm để cho một số điểm vượt qua, mà chỉ là về những gì xảy ra nếu bạn thay thế bằng hằng số dương khác . Tôi tin rằng kết quả trong trường hợp đó sẽ là như nhau (ví dụ, bạn muốn tìm cùng một mặt bằng tách) nhưng sẽ được thu nhỏ để bên lề sẽ là thay vì củaξi1ϵw2ϵw2w
Tim Goodman

Điều này là do định nghĩa một mặt phẳng trực giao với và bù từ gốc bằng trongw,x+b=ϵwϵbwwphương hướng. Và tương tự(w,x+b)=ϵ định nghĩa một mặt phẳng trực giao với w và bù từ gốc ϵbw. Vậy khoảng cách giữa hai mặt phẳng làϵbwϵbw=2ϵw
Tim Goodman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.