Một số suy nghĩ của tôi, có thể không chính xác mặc dù.
Tôi hiểu lý do chúng tôi có thiết kế như vậy (đối với mất bản lề và logistic) là chúng tôi muốn hàm mục tiêu được lồi.
Convexity chắc chắn là một tài sản tốt, nhưng tôi nghĩ lý do quan trọng nhất là chúng ta muốn hàm mục tiêu có các đạo hàm khác không , để chúng ta có thể sử dụng các đạo hàm để giải nó. Hàm mục tiêu có thể không lồi, trong trường hợp đó chúng ta thường chỉ dừng lại ở một số điểm tối ưu cục bộ hoặc yên xe.
và thật thú vị, nó cũng xử phạt các trường hợp được phân loại chính xác nếu chúng được phân loại yếu. Đó là một thiết kế thực sự kỳ lạ.
Tôi nghĩ rằng kiểu thiết kế như vậy khuyên người mẫu không chỉ đưa ra dự đoán đúng mà còn tự tin về các dự đoán. Nếu chúng ta không muốn các trường hợp được phân loại chính xác bị trừng phạt, ví dụ, chúng ta có thể di chuyển mất bản lề (màu xanh) sang trái 1, để chúng không còn bị mất nữa. Nhưng tôi tin rằng điều này thường dẫn đến kết quả tồi tệ hơn trong thực tế.
giá mà chúng ta cần phải trả bằng cách sử dụng các "chức năng mất proxy" khác nhau, chẳng hạn như mất bản lề và mất hậu cần?
IMO bằng cách chọn các hàm mất khác nhau, chúng tôi sẽ đưa ra các giả định khác nhau cho mô hình. Ví dụ, mất hồi quy logistic (màu đỏ) giả định phân phối Bernoulli, mất MSE (màu xanh lá cây) giả định nhiễu Gaussian.
Theo ví dụ hồi quy bình phương nhỏ nhất so với hồi quy logistic trong PRML, tôi đã thêm mất bản lề để so sánh.
Như thể hiện trong hình, mất bản lề và hồi quy logistic / entropy chéo / khả năng đăng nhập / softplus có kết quả rất gần nhau, bởi vì các hàm mục tiêu của chúng gần nhau (trong hình bên dưới), trong khi MSE thường nhạy cảm hơn với các ngoại lệ. Mất bản lề không phải lúc nào cũng có một giải pháp duy nhất bởi vì nó không hoàn toàn lồi.
Tuy nhiên, một đặc tính quan trọng của mất bản lề là, các điểm dữ liệu ở xa ranh giới quyết định không đóng góp gì cho tổn thất, giải pháp sẽ giống với các điểm bị xóa.
Các điểm còn lại được gọi là vectơ hỗ trợ trong ngữ cảnh của SVM. Trong khi đó, SVM sử dụng thuật ngữ chính quy để đảm bảo thuộc tính ký quỹ tối đa và một giải pháp duy nhất.