Một mô hình gần đây đang cố gắng nắm bắt một khái niệm như vậy là bởi Balcan, Blum và Gupta '09. Họ cung cấp cho các thuật toán cho các mục tiêu phân nhóm khác nhau khi đáp ứng dữ liệu một giả định nào đó: cụ thể là nếu dữ liệu là như vậy mà bất kỳ -approximation cho mục tiêu clustering là -close vào phân nhóm tối ưu, sau đó họ có thể đưa ra các thuật toán hiệu quả cho việc tìm kiếm một phân cụm gần như tối ưu, ngay cả đối với các giá trị của mà tìm ra phép tính gần đúng là NP-Hard. Đây là một giả định về dữ liệu bằng cách nào đó "đẹp" hoặc "có thể tách rời". Lipton có một bài đăng blog tốt đẹp về điều này.cϵcc
Một loại điều kiện tương tự khác về dữ liệu được đưa ra trong một bài báo của Bilu và Linial '10 là sự ổn định nhiễu loạn. Về cơ bản, họ chỉ ra rằng nếu dữ liệu sao cho phân cụm tối ưu không thay đổi khi dữ liệu bị nhiễu (bởi một số tham số ) cho các giá trị đủ lớn của , thì người ta có thể tìm thấy phân cụm tối ưu cho dữ liệu gốc, ngay cả khi vấn đề là NP-Hard nói chung. Đây là một khái niệm khác về tính ổn định hoặc khả năng phân tách của dữ liệu.αα
Tôi chắc chắn có công việc sớm hơn và các khái niệm liên quan sớm hơn, nhưng đây là một số kết quả lý thuyết gần đây liên quan đến câu hỏi của bạn.