Hàm chi phí SVM: định nghĩa cũ và mới

Tôi đang cố gắng điều hòa các định nghĩa khác nhau của hàm chi phí / tổn thất SVM biên mềm ở dạng nguyên thủy. Có một toán tử "max ()" mà tôi không hiểu.

Tôi đã học về SVM nhiều năm trước từ sách giáo khoa cấp đại học " Giới thiệu về khai thác dữ liệu " của Tan, Steinbach và Kumar, 2006. Nó mô tả hàm chi phí SVM dạng sơ cấp biên mềm trong Chương 5, tr. 267-268. Lưu ý rằng không có đề cập đến toán tử max ().

Điều này có thể được thực hiện bằng cách giới thiệu các biến chùng có giá trị dương ( $\xi$ ) vào các ràng buộc của vấn đề tối ưu hóa. ... Hàm mục tiêu đã sửa đổi được cho theo phương trình sau:

$f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k$

Trong đó $C$ và $k$ là các tham số do người dùng chỉ định đại diện cho hình phạt phân loại sai các trường hợp đào tạo. Trong phần còn lại của phần này, chúng tôi giả sử $k$ = 1 để đơn giản hóa vấn đề. Tham số $C$ có thể được chọn dựa trên hiệu suất của mô hình trên bộ xác thực.

Theo sau, Lagrangian cho vấn đề tối ưu hóa bị ràng buộc này có thể được viết như sau:

$L_{p} = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k - \sum_{i=1}^{N} \lambda_i (y_i (\mathbf{w} \cdot \mathbf{x_i} + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i$

trong đó hai thuật ngữ đầu tiên là hàm mục tiêu được giảm thiểu, thuật ngữ thứ ba biểu thị các ràng buộc bất bình đẳng liên quan đến các biến chùng và thuật ngữ cuối cùng là kết quả của các yêu cầu không phủ định đối với các giá trị của . $\xi_i$

Đó là từ một cuốn sách giáo khoa năm 2006.

Bây giờ (năm 2016), tôi bắt đầu đọc thêm tài liệu gần đây về SVM. Trong lớp Stanford để nhận dạng hình ảnh , hình thức nguyên thủy lề mềm được trình bày theo một cách khác:

Liên quan đến máy Vector hỗ trợ nhị phân. Bạn có thể đến lớp này với kinh nghiệm trước đây với Máy vectơ hỗ trợ nhị phân, trong đó mất mát cho ví dụ thứ i có thể được viết là:

Tương tự, trên bài viết của Wikipedia về SVM , hàm mất mát được đưa ra là:

Chức năng "tối đa" này đến từ đâu? Có chứa trong hai công thức đầu tiên trong phiên bản "Giới thiệu về khai thác dữ liệu" không? Làm thế nào để tôi dung hòa các công thức cũ và mới? Là sách giáo khoa đơn giản là lỗi thời?

— stackoverflowuser2010
nguồn

Biến slack được định nghĩa như sau (hình ảnh từ Nhận dạng mẫu và Học máy). $\xi$

$\xi_i = 1- y_i(\omega x_i+b)$ nếu ở phía bên trái của lề (nghĩa là ), nếu không. $x_i$ $1- y_i(\omega x_i+b)>0$ $\xi_i=0$

Do đó . $\xi_i=max(0, 1- y_i(\omega x_i+b))\qquad(1)$

Vì vậy, giảm thiểu chủ đề định nghĩa đầu tiên thành ràng buộc (1) tương đương với việc giảm thiểu định nghĩa thứ hai (thường xuyên + mất bản lề)

f (w) = \frac{{‖ w ‖}^{2}}{2} + C (\sum_{i = 1}^{N} ξ)^{k}

$f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k$

R (w) + C \sum m a x (0, 1 - y_{i} (ω x_{i} + b)) .

$R(w)+C\sum max(0, 1- y_i(\omega x_i+b)).$

Có một câu hỏi khác có thể liên quan Tìm hiểu các ràng buộc của SVM trong trường hợp không thể tách rời? .

— không
nguồn

Bạn có thể giải thích tại sao zeta_i = 1-yi (wx_i + b) .. nếu x_i ở phía sai

— Milan Amrut Joshi

@MilanAmrutJoshi câu hỏi hay, tôi chưa thực sự nghĩ về nó, chờ xem liệu có câu trả lời nào cho câu hỏi bạn vừa đăng không

— dontloo

@MilanAmrutJoshi Tôi tin rằng nó có một cái gì đó với lề, vì có một thuật ngữ bị mất, tôi đoán nó bằng "tìm ranh giới rằng khoảng cách của tất cả các điểm ở phía sai so với lề là nhỏ nhất "

| | w | |^{2}

$||w||^2$

— dontloo