Vấn đề đầu tiên: Tối thiểu hóahoặc :∥ w ∥∥ w∥2
Đó là chính xác mà người ta muốn tối đa hóa lợi nhuận. Điều này thực sự được thực hiện bằng cách tối đa hóa . Đây sẽ là cách "chính xác" để làm điều đó, nhưng nó khá bất tiện. Trước tiên hãy bỏ , vì nó chỉ là một hằng số. Bây giờ nếu là tối đa,sẽ phải càng nhỏ càng tốt. Do đó, chúng ta có thể tìm ra giải pháp giống hệt nhau bằng cách giảm thiểu.2∥ w ∥21∥ w ∥∥ w ∥ ∥ w ∥
∥w∥có thể được tính bằng . Vì căn bậc hai là một hàm đơn điệu, bất kỳ điểm nào tối đa hóa cũng sẽ tối đa hóa . Để tìm điểm này do đó chúng ta không phải tính căn bậc hai và có thể giảm thiểu .wTw−−−−√xf(x)−−−−√f(x)xwTw=∥w∥2
Cuối cùng, như chúng ta thường phải tính toán các đạo hàm, chúng ta nhân toàn bộ biểu thức với một thừa số . Điều này được thực hiện rất thường xuyên, bởi vì nếu chúng ta suy ra và do đó . Đây là cách chúng tôi kết thúc với vấn đề: thu nhỏ .12ddxx2=2xddx12x2=x12∥w∥2
tl; dr : có, giảm thiểuthay vì sẽ hoạt động.∥w∥12∥w∥2
Vấn đề thứ hai: hoặc :≥0≥1
Như đã nêu trong câu hỏi, có nghĩa là điểm phải nằm ở phía bên phải của siêu phẳng. Tuy nhiên điều này là không đủ: chúng tôi muốn điểm ít nhất là càng xa lề (thì điểm đó là một vectơ hỗ trợ), hoặc thậm chí xa hơn.yi(⟨w,xi⟩+b)≥0
Ghi nhớ định nghĩa của siêu phẳng,
H={x∣⟨w,x⟩+b=0} .
Tuy nhiên, mô tả này không phải là duy nhất: nếu chúng ta chia tỷ lệ và theo hằng số , thì chúng ta sẽ có được một mô tả tương đương của siêu phẳng này. Để đảm bảo thuật toán tối ưu hóa của chúng tôi không chỉ chia tỷ lệ và theo các yếu tố không đổi để có biên độ cao hơn, chúng tôi xác định rằng khoảng cách của vectơ hỗ trợ từ siêu phẳng luôn là , tức là lề là . Do đó, một vectơ hỗ trợ được đặc trưng bởi .wbcwb11∥w∥yi(⟨w,xi⟩+b)=1
Như đã đề cập trước đó, chúng tôi muốn tất cả các điểm là một vectơ hỗ trợ, hoặc thậm chí xa hơn siêu phẳng. Do đó, trong đào tạo, chúng tôi thêm ràng buộc , đảm bảo chính xác điều đó.yi(⟨w,xi⟩+b)≥1
tl; dr : Điểm đào tạo không chỉ cần chính xác, chúng phải ở ngoài lề hoặc xa hơn.