Tôi chỉ muốn thêm vào các câu trả lời khác một chút về cách, theo một nghĩa nào đó, có một lý do mạnh mẽ về lý thuyết để thích các phương pháp phân cụm phân cấp nhất định.
Một giả thuyết phổ biến trong phân tích cụm là các dữ liệu được lấy mẫu từ một số tiềm ẩn mật độ xác suất rằng chúng ta không có quyền truy cập vào. Nhưng giả sử chúng ta đã truy cập nó. Làm thế nào chúng ta sẽ xác định các cụm của f ?ff
Một cách tiếp cận rất tự nhiên và trực quan là nói rằng các cụm của là các khu vực có mật độ cao. Ví dụ, hãy xem xét mật độ hai đỉnh dưới đây:f
Bằng cách vẽ một đường ngang qua biểu đồ, chúng ta tạo ra một cụm các cụm. Ví dụ, nếu chúng ta vẽ một đường ở , chúng tôi nhận được hai cụm hiển thị. Nhưng nếu chúng ta vẽ đường tại λ 3 , chúng tôi có được một cụm duy nhất.λ1λ3
Để làm cho điều này chính xác hơn, giả sử chúng ta có tùy ý . Các cụm của f ở cấp λ là gì? Họ là những thành phần kết nối của superlevel set { x : f ( x ) ≥ bước sóng } .λ > 0fλ{ x : f( x ) ≥ λ }
λ λff
fXC1{ x : f( X ) ≥ bước sóng1}C2{ x : f( X ) ≥ bước sóng2}C1λ1C2λ2λ2< λ1C1⊂ C2C1∩ C2= ∅
Vì vậy, bây giờ tôi có một số dữ liệu được lấy mẫu từ một mật độ. Tôi có thể phân cụm dữ liệu này theo cách phục hồi cây cụm không? Cụ thể, chúng tôi muốn một phương pháp nhất quán theo nghĩa là khi chúng tôi thu thập ngày càng nhiều dữ liệu, ước tính thực nghiệm của chúng tôi về cây chùm ngây ngày càng gần với cây cụm thực sự.
Hartigan là người đầu tiên đặt câu hỏi như vậy và khi làm như vậy, ông đã xác định chính xác ý nghĩa của phương pháp phân cụm theo cấp bậc để ước lượng nhất quán cây cụm. Định nghĩa của anh ấy như sau: Đặt và B là các cụm phân biệt thực sự của f như được định nghĩa ở trên - nghĩa là chúng là các thành phần được kết nối của một số bộ superlevel. Bây giờ, vẽ một tập hợp n mẫu iid từ f và gọi bộ này là X n . Chúng tôi áp dụng phương pháp phân cụm theo cấp bậc cho dữ liệu X n và chúng tôi nhận lại một tập hợp các cụm thực nghiệm . Đặt A n là nhỏ nhấtMộtBfnfXnXnMộtnA ∩ XnBnB ∩ XnPr ( An∩ Bn) = ∅ → 1n → ∞MộtB
Về cơ bản, tính nhất quán của Hartigan nói rằng phương pháp phân cụm của chúng tôi nên phân tách đầy đủ các khu vực có mật độ cao. Hartigan đã điều tra xem liệu phân cụm liên kết đơn có thể nhất quán hay không và thấy rằng nó không nhất quán về kích thước> 1. Vấn đề tìm một phương pháp chung, nhất quán để ước tính cây cụm đã được mở cho đến vài năm trước, khi Chaudhuri và Dasgupta giới thiệu liên kết đơn mạnh mẽ , đó là nhất quán có thể chứng minh. Tôi khuyên bạn nên đọc về phương pháp của họ, vì nó khá thanh lịch, theo ý kiến của tôi.
Vì vậy, để giải quyết các câu hỏi của bạn, có một ý nghĩa trong đó cụm phân cấp là điều "đúng" cần làm khi cố gắng khôi phục cấu trúc của mật độ. Tuy nhiên, lưu ý các trích dẫn sợ hãi xung quanh "đúng" ... Các phương pháp phân cụm dựa trên mật độ cuối cùng có xu hướng hoạt động kém ở các chiều cao do lời nguyền của chiều, và do đó, mặc dù định nghĩa phân cụm dựa trên các cụm là xác suất cao là khá sạch sẽ và trực quan, nó thường bị bỏ qua có lợi cho các phương pháp thực hiện tốt hơn trong thực tế. Điều đó không có nghĩa là liên kết đơn mạnh mẽ không thực tế - nó thực sự hoạt động khá tốt đối với các vấn đề ở kích thước thấp hơn.
Cuối cùng, tôi sẽ nói rằng tính nhất quán của Hartigan theo một nghĩa nào đó không phù hợp với trực giác hội tụ của chúng tôi. Vấn đề là tính nhất quán của Hartigan cho phép một phương pháp phân cụm cho các cụm phân đoạn quá lớn sao cho thuật toán có thể nhất quán với Hartigan, nhưng tạo ra các cụm rất khác so với cây cụm thực sự. Chúng tôi đã sản xuất công việc trong năm nay trên một khái niệm thay thế về sự hội tụ nhằm giải quyết những vấn đề này. Tác phẩm đã xuất hiện trong "Beyond Hartigan Consistency: Hợp nhất số liệu biến dạng cho phân cụm theo cấp bậc" trong COLT 2015.