Thuộc tính của hai bộ dữ liệu của bạn là tính phân tách tuyến tính , đơn giản là có một dòng phân tách chúng. Rất nhiều máy học được dành cho việc tìm các phân loại tuyến tính , đó là các dòng thực hiện phân tách mà bạn quan tâm.
Khi bạn đang nói về các dòng, tôi sẽ cho rằng điểm của bạn nằm trong mặt phẳng. Những gì bạn muốn làm là tìm giá trị , w 2 và w 3 , như vậy mà cho tất cả các điểm ( một 1 , một 2 ) trong tập Một , w 1 một 1 + w 2 một 2 ≥ w 3 và cho tất cả các điểm ( b 1 , b 2 ) trong B , w 1 b 1 +w1w2w3(a1,a2)Aw1a1+w2a2≥w3(b1,b2)B . Do đó, sự bất bình đẳng w 1 x + w 2 y ≥ w 3 có thể được coi là một phân loại cho bộ Một .w1b1+w2b2<w3w1x+w2y≥w3A
Có rất nhiều thuật toán học máy để xác định một dòng tối ưu (hồi quy tuyến tính, hồi quy logistic, v.v.). Chúng sẽ tìm các giá trị cho dựa trên một số số liệu lỗi. Sau đó, bạn có thể kiểm tra xem tất cả các điểm được phân loại chính xác. Đó là, cho dù tất cả các giá trị trong Một thỏa mãn phương trình trên và tương tự cho B .w1,w2,w3AB
w1,w2,w3
w1ai1+w2ai2≥w3i=1,..,|A|A={(a11,a12),…,(a|A|1,a|A|2)}
w1bj1+w2bj2<w3j=1,..,|B|B={(b11,b12),…,(b|B|1,b|B|2)}
Nếu những ràng buộc này là nhất quán, thì một dòng tồn tại.