Cho một tập hợp các điểm trong không gian hai chiều, làm thế nào một thiết kế có thể quyết định chức năng cho SVM?

Ai đó có thể giải thích cho tôi cách người ta thiết kế một chức năng quyết định SVM không? Hoặc chỉ cho tôi tài nguyên thảo luận về một ví dụ cụ thể.

BIÊN TẬP

Với ví dụ dưới đây, tôi có thể thấy rằng phương trình phân tách các lớp có lề tối đa. Nhưng làm thế nào để tôi điều chỉnh các trọng số và viết phương trình cho hyperplanes dưới dạng sau. $X_2 = 1.5$

\begin{array}{ll} H_{1} : w_{0} + w_{1} x_{1} + w_{2} x_{2} \geq 1 & for Y_{i} = + 1 \\ H_{2} : w_{0} + w_{1} x_{1} + w_{2} x_{2} \leq - 1 & for Y_{i} = - 1. \end{array}

$\begin{array}{ll} H_1 : w_0+w_1x_1+w_2x_2 \ge 1 & \text{for}\; Y_i = +1 \\ H_2 : w_0+w_1x_1+w_2x_2 \le -1 & \text{for}\; Y_i = -1.\end{array}$

nhập mô tả hình ảnh ở đây

Tôi đang cố gắng đưa ra lý thuyết cơ bản ngay trong không gian 2 chiều (vì nó dễ hình dung hơn) trước khi tôi nghĩ về các chiều cao hơn.

Tôi đã tìm ra giải pháp cho việc này. Ai đó có thể vui lòng xác nhận nếu điều này là chính xác không?

vectơ trọng lượng là (0, -2) và W_0 là 3

\begin{array}{ll} H_{1} : 3 + 0 x_{1} - 2 x_{2} \geq 1 & for Y_{i} = + 1 \\ H_{2} : 3 + 0 x_{1} - 2 x_{2} \leq - 1 & for Y_{i} = - 1. \end{array}

$\begin{array}{ll} H_1 : 3+0x_1-2x_2 \ge 1 & \text{for}\; Y_i = +1 \\ H_2 : 3+0x_1 -2x_2 \le -1 & \text{for}\; Y_i = -1.\end{array}$

svm

— naresh
nguồn

Có một minh họa với R ở đây , nhưng tôi cảm thấy câu hỏi của bạn nhiều hơn về khía cạnh thuật toán. Trong trường hợp này, sẽ hữu ích nếu bạn có thể thêm một chút chi tiết về ứng dụng dự định hoặc tài nguyên có sẵn.

— chl

@chl Tôi đã cập nhật câu hỏi với thông tin chi tiết

— naresh

Có ít nhất hai cách để thúc đẩy các SVM, nhưng tôi sẽ đi theo con đường đơn giản hơn ở đây.

Bây giờ, hãy quên mọi thứ bạn biết về SVM vào lúc này và chỉ tập trung vào vấn đề trong tay. Bạn được cung cấp một tập hợp các điểm cùng với một số nhãn ( ) từ . Bây giờ, chúng tôi đang cố gắng tìm một dòng trong 2D sao cho tất cả các điểm có nhãn rơi ở một bên của dòng và tất cả các điểm có nhãn rơi ở phía bên kia. $\mathcal{D} = \{(x^i_1, x^i_2, y_i)\}$ $y_i$ $\{1, -1\}$ $1$ $-1$

Trước hết, hãy nhận ra rằng là một dòng trong 2D và đại diện cho "một bên" của dòng và đại diện cho "bên kia" của hàng. $w_0 + w_1x_1 + w_2x_2 = 0$ $w_0 + w_1x_1 + w_2x_2 > 0$ $w_0 + w_1x_1 + w_2x_2 < 0$

Từ những điều trên, chúng tôi có thể kết luận rằng chúng tôi muốn một số vectơ sao cho, cho tất cả các điểm với và cho tất cả các điểm với [1]. $[w_0, w_1, w_2]$ $w_0 + w_1x^i_1 + w_2x^i_2 \geq 0$ $x^i$ $y_i = 1$ $w_0 + w_1x^i_1 + w_2x^i_2 < 0$ $x^i$ $y_i = -1$

Chúng ta hãy giả sử rằng một dòng như vậy thực sự tồn tại thì tôi có thể định nghĩa một bộ phân loại theo cách sau,

min | w_{0} | + | w_{1} | + | w_{2} | subject to : w_{0} + w_{1} x_{1}^{i} + w_{2} x_{2}^{i} \geq 0, \forall x^{i} with y_{i} = 1 w_{0} + w_{1} x_{1}^{i} + w_{2} x_{2}^{i} < 0, \forall x^{i} with y_{i} = - 1

$\min |w_0| + |w_1| + |w_2| \\ \text{subject to} : w_0 + w_1x^i_1 + w_2x^i_2 \geq 0, \forall x^i\text{ with }y_i = 1 \\ w_0 + w_1x^i_1 + w_2x^i_2 < 0, \forall x^i\text{ with }y_i = -1 \\$

Tôi đã sử dụng một hàm mục tiêu tùy ý ở trên, chúng tôi không thực sự quan tâm tại thời điểm mà hàm mục tiêu được sử dụng. Chúng tôi chỉ muốn một thỏa mãn các ràng buộc của chúng tôi. Vì chúng ta đã giả sử rằng một dòng tồn tại sao cho chúng ta có thể tách hai lớp với dòng đó, chúng ta sẽ tìm ra giải pháp cho vấn đề tối ưu hóa ở trên. $w$

Ở trên không phải là SVM nhưng nó sẽ cung cấp cho bạn một bộ phân loại :-). Tuy nhiên phân loại này có thể không tốt lắm. Nhưng làm thế nào để bạn xác định một phân loại tốt? Một bộ phân loại tốt thường là bộ phân loại tốt trong bộ kiểm tra. Tốt nhất, bạn sẽ đi qua tất cả các khả năng 's mà tách dữ liệu đào tạo của bạn và xem trong số họ làm tốt trên các dữ liệu thử nghiệm. Tuy nhiên, có vô số , nên điều này khá vô vọng. Thay vào đó, chúng tôi sẽ xem xét một số phương pháp phỏng đoán để xác định một phân loại tốt. Một heuristic là đường phân tách dữ liệu sẽ đủ xa tất cả các điểm (nghĩa là luôn có khoảng cách hoặc lề giữa các điểm và đường). Phân loại tốt nhất trong số này là phân loại có lề tối đa. Đây là những gì được sử dụng trong SVM. $w$ $w$

Thay vì khăng khăng rằng cho tất cả các điểm với và cho tất cả các điểm với , nếu chúng tôi nhấn mạnh rằng cho tất cả các điểm với và cho tất cả các điểm với , sau đó chúng tôi thực sự khẳng định rằng các điểm cách xa đường. Lề hình học tương ứng với yêu cầu này xuất hiện là . $w_0 + w_1x^i_1 + w_2x^i_2 \geq 0$ $x^i$ $y_i = 1$ $w_0 + w_1x^i_1 + w_2x^i_2 < 0$ $x^i$ $y_i = -1$ $w_0 + w_1x^i_1 + w_2x^i_2 \geq 1$ $x^i$ $y_i = 1$ $w_0 + w_1x^i_1 + w_2x^i_2 \leq -1$ $x^i$ $y_i = -1$ $\frac{1}{\|w\|_2}$

Vì vậy, chúng tôi nhận được vấn đề tối ưu hóa sau, Một dạng viết ngắn gọn nhẹ này là, Đây về cơ bản là công thức SVM cơ bản. Tôi đã bỏ qua khá nhiều cuộc thảo luận cho ngắn gọn. Hy vọng, tôi vẫn có hầu hết các ý tưởng thông qua.

max \frac{1}{‖ w ‖_{2}} subject to : w_{0} + w_{1} x_{1}^{i} + w_{2} x_{2}^{i} \geq 1, \forall x^{i} with y_{i} = 1 w_{0} + w_{1} x_{1}^{i} + w_{2} x_{2}^{i} \leq - 1, \forall x^{i} with y_{i} = - 1

$\max \frac{1}{\|w\|_2} \\ \text{subject to} : w_0 + w_1x^i_1 + w_2x^i_2 \geq 1, \forall x^i\text{ with }y_i = 1 \\ w_0 + w_1x^i_1 + w_2x^i_2 \leq -1, \forall x^i\text{ with }y_i = -1 \\$

min ‖ w ‖_{2} subject to : y_{i} (w_{0} + w_{1} x_{1}^{i} + w_{2} x_{2}^{i}) \geq 1, \forall i

$\min \|w\|_2 \\ \text{subject to} : y_i(w_0 + w_1x^i_1 + w_2x^i_2) \geq 1, \forall i$

Kịch bản CVX để giải quyết vấn đề mẫu:

A = [1 2 1; 3 2 1; 2 3 1; 3 3 1; 1 1 1; 2 0 1; 2 1 1; 3 1 1];
b = ones(8, 1);
y = [-1; -1; -1; -1; 1; 1; 1; 1];
Y = repmat(y, 1, 3);
cvx_begin
variable w(3)
minimize norm(w)
subject to
(Y.*A)*w >= b
cvx_end

Phụ lục - Ký quỹ hình học

Ở trên, chúng tôi đã yêu cầu chúng tôi tìm sao cho hoặc nói chung là . LHS ở đây mà bạn thấy được gọi là lề chức năng, vì vậy điều chúng tôi đã yêu cầu ở đây là lề chức năng là . Bây giờ, chúng tôi sẽ cố gắng tính toán lề hình học cho yêu cầu lề chức năng này. $w$ $y_i(w_0 + w_1x_1 + w_2x_2) \geq 1$ $y_i(w_0 + w^Tx) \geq 1$ $\geq 1$

Lề hình học là gì? Lề hình học là khoảng cách ngắn nhất giữa các điểm trong các ví dụ tích cực và các điểm trong các ví dụ tiêu cực. Bây giờ, các điểm có khoảng cách ngắn nhất theo yêu cầu ở trên có thể có biên chức năng lớn hơn bằng 1. Tuy nhiên, chúng ta hãy xem xét trường hợp cực đoan, khi chúng ở gần siêu phẳng nhất, lề chức năng cho các điểm ngắn nhất chính xác bằng nhau đến 1. Gọi là điểm trên ví dụ tích cực là một điểm sao cho và là điểm trên ví dụ phủ định là một điểm sao cho . Bây giờ, khoảng cách giữa và sẽ ngắn nhất khi $x_+$ $w^Tx_+ + w_0 = 1$ $x_-$ $w^Tx_- + w_0 = -1$ $x_+$ $x_-$ $x_+ - x_-$ vuông góc với siêu phẳng.

Bây giờ, với tất cả các thông tin trên, chúng tôi sẽ cố gắng tìm là lề hình học. $\|x_+ - x_-\|_2$

w^{T} x_{+} + w_{0} = 1

$w^Tx_+ + w_0 = 1$

w^{T} x_{-} + w_{0} = - 1

$w^Tx_- + w_0 = -1$

w^{T} (x_{+} - x_{-}) = 2

$w^T(x_+ - x_-) = 2$

| w^{T} (x_{+} - x_{-}) | = 2

$|w^T(x_+ - x_-)| = 2$

‖ w ‖_{2} ‖ x_{+} - x_{-} ‖_{2} = 2

$\|w\|_2\|x_+ - x_-\|_2 = 2$

‖ x_{+} - x_{-} ‖_{2} = \frac{2}{‖ w ‖_{2}}

$\|x_+ - x_-\|_2 = \frac{2}{\|w\|_2}$

[1] Việc bạn chọn bên nào cho và không thực sự quan trọng . Bạn chỉ cần kiên định với bất cứ điều gì bạn chọn. $1$ $-1$

— TenaliRaman
nguồn

@naresh Yeap, giải quyết vấn đề này là trong cvx đã cho tôi giải pháp chính xác giống như bạn có .

w = [0, - 2, 3]

$w = [0, -2, 3]$

— TenaliRaman

@entropy cảm ơn tôi đã sửa lỗi đánh máy. Tôi sẽ thêm giải thích lề hình học.

— TenaliRaman

@entropy Tôi đã cập nhật câu trả lời với phần giải thích lề hình học.

— TenaliRaman

@entropy là một siêu phẳng đi qua gốc. Để bao trùm không gian của tất cả các phương trình tuyến tính, bạn cần thuật ngữ thiên vị. Hãy nghĩ về các điểm nằm trong 2D và hãy để chúng tôi nói rằng bạn đang cố gắng tìm một đường phân tách các điểm này. Tuy nhiên những điểm này đều nằm trong góc phần tư thứ nhất. Bây giờ người ta có thể sắp xếp các điểm này sao cho chúng có thể tách rời nhưng không phải bởi bất kỳ dòng nào đi qua gốc. Tuy nhiên, một dòng với một thiên vị thích hợp có thể làm điều đó.

w^{T} x

$w^{T}x$

— TenaliRaman

@entropy Đã nói ở trên, bây giờ bạn có thể nhận ra rằng nếu bạn xoay và dịch chuyển điểm chính xác, ngay cả một dòng đi qua gốc sẽ có thể tách các lớp. Tuy nhiên, thông thường việc tìm kiếm sự xoay vòng và dịch chuyển đúng này không dễ dàng, so với việc chỉ học thuật ngữ thiên vị.

— TenaliRaman