Tôi đã suy nghĩ về việc viết một bài đăng trên blog về phân tích thú vị này của Kleinberg (2002) để khám phá những khó khăn của việc phân cụm. Kleinberg phác thảo ba desiderata dường như trực quan cho một chức năng phân cụm và sau đó chứng minh rằng không có chức năng như vậy tồn tại. Có nhiều thuật toán phân cụm làm bão hòa hai trong ba tiêu chí; tuy nhiên, không có chức năng nào có thể thỏa mãn cả ba cùng một lúc.
Ngắn gọn và không chính thức, ba desiderata mà ông phác thảo là:
- Bất biến tỷ lệ : Nếu chúng ta biến đổi dữ liệu để mọi thứ được kéo dài bằng nhau theo mọi hướng, thì kết quả phân cụm không nên thay đổi.
- Tính nhất quán : Nếu chúng tôi kéo dài dữ liệu để khoảng cách giữa các cụm tăng và / hoặc khoảng cách trong các cụm giảm, thì kết quả phân cụm không nên thay đổi.
- Độ phong phú : Về mặt lý thuyết, chức năng phân cụm có thể tạo ra bất kỳ phân vùng / cụm dữ liệu tùy ý nào (trong trường hợp không biết khoảng cách cặp giữa hai điểm bất kỳ)
Câu hỏi:
(1) Có một trực giác tốt, hình ảnh hình học có thể cho thấy sự không nhất quán giữa ba tiêu chí này?
(2) Điều này đề cập đến các chi tiết kỹ thuật cho bài báo. Bạn sẽ phải đọc liên kết ở trên để hiểu phần này của câu hỏi.
Trong bài báo, việc chứng minh định lý 3.1 hơi khó để tôi theo dõi tại các điểm. Tôi bị mắc kẹt tại: "Gọi là hàm phân cụm thỏa mãn tính nhất quán. Chúng tôi khẳng định rằng với bất kỳ phân vùng nào , tồn tại các số thực dương sao cho cặp là - buộc. "
Tôi không thấy làm thế nào điều này có thể xảy ra ... Không phải phân vùng bên dưới một ví dụ ngược lại trong đó (tức là khoảng cách tối thiểu giữa các cụm lớn hơn khoảng cách tối đa trong các cụm)?
Chỉnh sửa: đây rõ ràng không phải là một ví dụ, tôi đã tự nhầm lẫn (xem câu trả lời).
Giấy tờ khác:
- Ackerman & Ben-David (2009). Các biện pháp về chất lượng phân cụm: Một bộ các phương pháp làm việc để phân cụm
- Chỉ ra một số vấn đề với tiên đề "nhất quán"