Phân cụm chính thức hóa khác với K-nghĩa cho dữ liệu có thể tách rời


11

Dữ liệu trong thế giới thực đôi khi có một số cụm tự nhiên (cố gắng phân cụm nó thành một số cụm nhỏ hơn một số phép thuật k sẽ làm tăng đáng kể chi phí phân cụm). Hôm nay tôi đã tham dự một bài giảng của Tiến sĩ Adam Meyerson và ông gọi loại dữ liệu đó là "dữ liệu có thể tách rời".

Một số chính thức phân cụm, ngoài các phương tiện K, có thể phù hợp với các thuật toán phân cụm (xấp xỉ hoặc heuristic) sẽ khai thác sự phân tách tự nhiên trong dữ liệu là gì?

Câu trả lời:


11

Một mô hình gần đây đang cố gắng nắm bắt một khái niệm như vậy là bởi Balcan, Blum và Gupta '09. Họ cung cấp cho các thuật toán cho các mục tiêu phân nhóm khác nhau khi đáp ứng dữ liệu một giả định nào đó: cụ thể là nếu dữ liệu là như vậy mà bất kỳ -approximation cho mục tiêu clustering là -close vào phân nhóm tối ưu, sau đó họ có thể đưa ra các thuật toán hiệu quả cho việc tìm kiếm một phân cụm gần như tối ưu, ngay cả đối với các giá trị của mà tìm ra phép tính gần đúng là NP-Hard. Đây là một giả định về dữ liệu bằng cách nào đó "đẹp" hoặc "có thể tách rời". Lipton có một bài đăng blog tốt đẹp về điều này.cϵcc

Một loại điều kiện tương tự khác về dữ liệu được đưa ra trong một bài báo của Bilu và Linial '10 là sự ổn định nhiễu loạn. Về cơ bản, họ chỉ ra rằng nếu dữ liệu sao cho phân cụm tối ưu không thay đổi khi dữ liệu bị nhiễu (bởi một số tham số ) cho các giá trị đủ lớn của , thì người ta có thể tìm thấy phân cụm tối ưu cho dữ liệu gốc, ngay cả khi vấn đề là NP-Hard nói chung. Đây là một khái niệm khác về tính ổn định hoặc khả năng phân tách của dữ liệu.αα

Tôi chắc chắn có công việc sớm hơn và các khái niệm liên quan sớm hơn, nhưng đây là một số kết quả lý thuyết gần đây liên quan đến câu hỏi của bạn.


8

Ngoài các công trình của Ostrovsky và cộng sự , và công trình của Arthur và Vassilvitskii về hành vi của phương tiện k, còn có một công trình lý thuyết về k-median E-trung bình và k-nghĩa dẫn đến thuật toán thời gian "tuyến tính" để phân cụm theo các công thức. Điều thú vị về những công việc sau này là chúng sử dụng tính phân tách như một công cụ trong phân tích, nhưng không yêu cầu nó trong dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.