Đường phân cách hai bộ điểm

19

Nếu có một cách để xác định nếu hai bộ điểm có thể được phân tách bằng một dòng?

Chúng ta có hai tập hợp điểm và nếu có một đường phân cách và sao cho tất cả các điểm của và chỉ ở một bên của dòng và tất cả các điểm của và chỉ ở phía bên kia. $A$ $B$ $A$ $B$ $A$ $A$ $B$ $B$

Thuật toán ngây thơ nhất mà tôi nghĩ ra là xây dựng đa giác lồi cho và và kiểm tra chúng cho giao điểm. Có vẻ như thời gian phức tạp về thời gian cho điều này nên là như để xây dựng một đa giác lồi. Thật ra tôi không mong đợi bất kỳ sự cải thiện nào về độ phức tạp thời gian, tôi không chắc nó có thể được cải thiện chút nào. Nhưng ít nhất nên có một cách đẹp hơn để xác định nếu có một dòng như vậy. $A$ $B$ $O(n\log h)$

algorithms machine-learning computational-geometry

— com
nguồn

19

Cả uli và Dave Clarke đều quan sát chính xác rằng đây là một vấn đề lập trình tuyến tính, ngay cả ở các chiều cao hơn (Hai tập hợp điểm này có thể được phân tách bằng một siêu phẳng không?) Và do đó nó có thể được giải quyết trong thời gian đa thức. Nhưng vì điểm của bạn nằm trong mặt phẳng, vấn đề của bạn thực sự có thể được giải quyết trong thời gian , trong đó là tổng số điểm. $O(n)$ $n$

Giải pháp đơn giản nhất có lẽ là thuật toán ngẫu nhiên của Seidel. Chọn một điểm đầu vào thống nhất một cách ngẫu nhiên, và đệ quy tính toán một đường phân cách cho tất cả các điểm ngoại trừ . $p$ $\ell$ $p$

Nếu không có dòng nào như vậy tồn tại, thì các điểm ban đầu không thể tách rời.
Nếu là ở phía đúng của , sau đó tách các điểm gốc. $p$ $\ell$ $\ell$
Nếu nằm ở phía sai của , thì các điểm ban đầu có thể được phân tách bằng một đường qua hoặc các điểm ban đầu hoàn toàn không thể tách rời. Điều kiện này rất dễ kiểm tra trong thời gian [bài tập]. $p$ $\ell$ $p$ $O(n)$

Thuật toán này chạy trong thời gian với xác suất cao (liên quan đến các lựa chọn ngẫu nhiên của thuật toán). Để biết thêm chi tiết, xem bài báo gốc hoặc bất kỳ số lượng ghi chú bài giảng trực tuyến. $O(n)$

— JeffE
nguồn

Cảm ơn bạn rất nhiều, tôi sẽ đi sâu vào bài báo này.

— com

Trong trường hợp thứ ba của bạn, bạn nói rằng nó có thể là dòng đi qua

, làm thế nào để biết điều đó?

p

$p$

— Tarrasch

10

Thuộc tính của hai bộ dữ liệu của bạn là tính phân tách tuyến tính , đơn giản là có một dòng phân tách chúng. Rất nhiều máy học được dành cho việc tìm các phân loại tuyến tính , đó là các dòng thực hiện phân tách mà bạn quan tâm.

Khi bạn đang nói về các dòng, tôi sẽ cho rằng điểm của bạn nằm trong mặt phẳng. Những gì bạn muốn làm là tìm giá trị , và , như vậy mà cho tất cả các điểm trong tập , và cho tất cả các điểm trong , $w_1$ $w_2$ $w_3$ $(a_1,a_2)$ $A$ $w_1 a_1+w_2a_2\ge w_3$ $(b_1,b_2)$ $B$ . Do đó, sự bất bình đẳng có thể được coi là một phân loại cho bộ . $w_1 b_1+w_2b_2<w_3$ $w_1 x+w_2y\ge w_3$ $A$

Có rất nhiều thuật toán học máy để xác định một dòng tối ưu (hồi quy tuyến tính, hồi quy logistic, v.v.). Chúng sẽ tìm các giá trị cho dựa trên một số số liệu lỗi. Sau đó, bạn có thể kiểm tra xem tất cả các điểm được phân loại chính xác. Đó là, cho dù tất cả các giá trị trong thỏa mãn phương trình trên và tương tự cho . $w_1,w_2,w_3$ $A$ $B$

$w_1,w_2,w_3$

$w_1 a^i_1+w_2a^i_2\ge w_3$ $i=1,..,|A|$ $A=\{(a^1_1,a^1_2),\ldots,(a^{|A|}_1,a^{|A|}_2)\}$

$w_1 b^j_1+w_2b^j_2< w_3$ $j=1,..,|B|$ $B=\{(b^1_1,b^1_2),\ldots,(b^{|B|}_1,b^{|B|}_2)\}$

Nếu những ràng buộc này là nhất quán, thì một dòng tồn tại.

— Dave Clarke
nguồn

5

$2$

— uli
nguồn