Làm thế nào để hiểu những nhược điểm của Phân cụm phân cấp?


19

Ai đó có thể giải thích những ưu và nhược điểm của Phân cụm phân cấp?

  1. Phân cụm phân cấp có những nhược điểm giống như K nghĩa là gì không?
  2. Những lợi thế của cụm phân cấp so với K có nghĩa là gì?
  3. Khi nào chúng ta nên sử dụng K có nghĩa là Phân cụm & ngược lại?

Câu trả lời cho bài này giải thích những nhược điểm của k có nghĩa là rất tốt. Làm thế nào để hiểu những nhược điểm của K-nghĩa


2
Trong câu trả lời này, tôi đã chạm vào một số khía cạnh có khả năng có vấn đề của phân tích cụm kết tụ phân cấp. "Hạn chế" chính là nó là thuật toán tham lam đơn lẻ, không vượt qua. Với thuật toán tham lam, bạn tối ưu hóa nhiệm vụ của bước hiện tại, đối với hầu hết các phương thức HC - không nhất thiết phải đảm bảo phân vùng tốt nhất ở bước xa trong tương lai. Ưu điểm chính của HC là nó linh hoạt đối với việc lựa chọn biện pháp gần để sử dụng. @Mic đã đưa ra một câu trả lời tốt dưới đây, vì vậy tôi chỉ lặp lại.
ttnphns

Câu trả lời:


13

Trong khi đó, -means cố gắng tối ưu hóa một mục tiêu toàn cầu (phương sai của các cụm) và đạt được một cụm phân cấp phân cấp tối ưu cục bộ nhằm mục đích tìm ra bước tốt nhất trong mỗi phản ứng tổng hợp cụm (thuật toán tham lam) được thực hiện chính xác nhưng dẫn đến một giải pháp tối ưu tiềm năng .k

Người ta nên sử dụng phân cụm theo phân cấp khi dữ liệu cơ bản có cấu trúc phân cấp (như các mối tương quan trong thị trường tài chính) và bạn muốn khôi phục cấu trúc phân cấp. Bạn vẫn có thể áp dụng -means để làm điều đó, nhưng bạn có thể kết thúc bằng các phân vùng (từ điểm thô nhất (tất cả các điểm dữ liệu trong cụm) đến điểm tốt nhất (mỗi điểm dữ liệu là một cụm)) không được lồng vào nhau và do đó không phải là một hệ thống phân cấp thích hợp.k

Nếu bạn muốn đào sâu vào các thuộc tính tốt hơn của phân cụm, bạn có thể không muốn chống lại phân cụm phẳng như -means sang phân cụm theo thứ bậc như Liên kết đơn, trung bình, hoàn chỉnh. Ví dụ, tất cả các cụm này là bảo tồn không gian, tức là khi bạn xây dựng các cụm bạn không làm biến dạng không gian, trong khi một cụm phân cấp như Ward không bảo toàn không gian, tức là ở mỗi bước hợp nhất, nó sẽ làm biến dạng không gian số liệu.k

Để kết luận, nhược điểm của các thuật toán phân cụm phân cấp có thể rất khác nhau giữa các thuật toán này. Một số có thể chia sẻ các thuộc tính tương tự như -means: Ward nhằm mục đích tối ưu hóa phương sai, nhưng Liên kết đơn thì không. Nhưng chúng cũng có thể có các thuộc tính khác nhau: Ward là giãn nở không gian, trong khi Liên kết đơn là bảo tồn không gian như -means.kkk

- chỉnh sửa để chính xác các thuộc tính tiết kiệm không gian và giãn nở không gian

Bảo toàn không gian: trong đó là khoảng cách giữa các cụm và mà bạn muốn hợp nhất và là khoảng cách giữa các điểm dữ liệu. D i j C i C j d

DTôij[tối thiểuxCTôi,yCjd(x,y),tối đaxCTôi,yCjd(x,y)]
DTôijCTôiCjd

Không gian giãn nở: tức là bằng cách hợp nhất và , thuật toán sẽ đẩy xa hơn cụm .C i C j

D(CTôiCj,Ck)tối đa(DTôik,Djk),
CTôiCjCk

Bạn có thể cho thêm vài ví dụ về dữ liệu có cấu trúc phân cấp không? Không theo gương thị trường tài chính.
GeorgeOfTheRF

Chắc chắn rồi. xem arxiv.org/pdf/cond-mat/9802256.pdf hoặc đơn giản là Hình 7 trong arxiv.org/pdf/1506.00976.pdf mô tả một ma trận tương quan có cấu trúc khối tương quan phân cấp (ồn ào): bạn có thể nhận thấy các khối trên chính đường chéo, được chia thành nhiều khối, mỗi khối chia thành nhiều khối hơn. Nó tương ứng với một phân khu ở các khu vực (Châu Âu, Mỹ, Châu Á cũ Nhật Bản, Nhật Bản), sau đó mỗi khu vực chia cho chất lượng tài sản (chất lượng cao so với rác), sau đó chia cho các ngành công nghiệp lớn (bán lẻ, công nghiệp, phương tiện truyền thông), chia nhỏ hơn nữa vào (hàng không vũ trụ, tự động ...)
mic

3
+1. Tuy nhiên, should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchyKhông nhất thiết. Trong hầu hết các trường hợp thay vì ngược lại. Hierarhy của HC là một câu chuyện về thuật toán hơn là một cấu trúc của dữ liệu . Tuy nhiên, câu hỏi này cuối cùng là triết học / logic, không phải là thống kê.
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space. Bạn có thể viết thêm về nó? Điều này không rõ ràng lắm.
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means. Bạn có muốn nói hợp đồng không gian cho liên kết đơn?
ttnphns

13

Khả năng mở rộng

O ( n k d i ) O ( n 3 d ) O ( n 2 d ) k i d i n O ( n )k có nghĩa là người chiến thắng rõ ràng ở đây. tốt hơn nhiều so với (trong một vài trường hợp ) khả năng mở rộng của phân cụm theo thứ bậc vì thường cả và và có quy mô nhỏ (không may, có xu hướng phát triển với , do đó thực hiện không thường giữ). Ngoài ra, tiêu thụ bộ nhớ là tuyến tính, trái ngược với bậc hai (thông thường, các trường hợp đặc biệt tuyến tính tồn tại).Ôi(nkdTôi)Ôi(n3d)Ôi(n2d)kTôidTôinÔi(n)

Uyển chuyển

k k k kk -means là rất hạn chế trong khả năng ứng dụng. Về cơ bản, nó bị giới hạn ở khoảng cách Euclide (bao gồm Euclide trong không gian hạt nhân và phân kỳ Bregman, nhưng chúng khá kỳ lạ và không ai thực sự sử dụng chúng với -means). Thậm chí tệ hơn, -means chỉ hoạt động trên dữ liệu số (mà thực sự nên liên tục và dày đặc để phù hợp với -means).kkk

Phân cụm phân cấp là người chiến thắng rõ ràng ở đây. Nó thậm chí không yêu cầu khoảng cách - bất kỳ biện pháp nào cũng có thể được sử dụng, bao gồm các hàm tương tự chỉ đơn giản bằng cách thích giá trị cao hơn giá trị thấp. Dữ liệu phân loại? chắc chắn chỉ sử dụng ví dụ Jaccard. Dây? Hãy thử khoảng cách Levenshtein. Chuỗi thời gian? chắc chắn rồi. Dữ liệu hỗn hợp? Khoảng cách Gower. Có hàng triệu bộ dữ liệu nơi bạn có thể sử dụng phân cụm theo phân cấp, nhưng ở đó bạn không thể sử dụng -means.k

Mô hình

Không có người chiến thắng ở đây. -means đạt điểm cao vì nó mang lại sự giảm dữ liệu lớn. Centroid rất dễ hiểu và sử dụng. Mặt khác, phân cụm phân cấp, tạo ra một dendrogram. Một dendrogram cũng có thể rất rất hữu ích trong việc hiểu tập dữ liệu của bạn.k


Có phải phân cấp thất bại như k có nghĩa là khi các cụm là 1) không hình cầu 2) có bán kính 3 khác nhau) có mật độ khác nhau?
GeorgeOfTheRF

2
Cả hai đều có thể làm việc, và cả hai đều có thể thất bại. Đó là lý do tại sao những thứ như dendrograms là hữu ích. Không bao giờ tin tưởng một kết quả phân cụm là "chính xác", bao giờ.
Anony-Mousse -Reinstate Monica

Phân cụm theo phân cấp có thể cung cấp cho các cụm tối ưu hóa cục bộ vì nó dựa trên cách tiếp cận tham lam nhưng K có nghĩa là cho các cụm được tối ưu hóa toàn cầu. Tôi cũng đã có kinh nghiệm rằng giải thích về phân cụm phân cấp là tương đối dễ dàng cho những người kinh doanh so với K có nghĩa.
Arpit Sisodia

7

Tôi chỉ muốn thêm vào các câu trả lời khác một chút về cách, theo một nghĩa nào đó, có một lý do mạnh mẽ về lý thuyết để thích các phương pháp phân cụm phân cấp nhất định.

Một giả thuyết phổ biến trong phân tích cụm là các dữ liệu được lấy mẫu từ một số tiềm ẩn mật độ xác suất rằng chúng ta không có quyền truy cập vào. Nhưng giả sử chúng ta đã truy cập nó. Làm thế nào chúng ta sẽ xác định các cụm của f ?ff

Một cách tiếp cận rất tự nhiên và trực quan là nói rằng các cụm của là các khu vực có mật độ cao. Ví dụ, hãy xem xét mật độ hai đỉnh dưới đây:f

nhập mô tả hình ảnh ở đây

Bằng cách vẽ một đường ngang qua biểu đồ, chúng ta tạo ra một cụm các cụm. Ví dụ, nếu chúng ta vẽ một đường ở , chúng tôi nhận được hai cụm hiển thị. Nhưng nếu chúng ta vẽ đường tại λ 3 , chúng tôi có được một cụm duy nhất.λ1λ3

Để làm cho điều này chính xác hơn, giả sử chúng ta có tùy ý . Các cụm của f ở cấp λ là gì? Họ là những thành phần kết nối của superlevel set { x : f ( x ) bước sóng } .λ>0fλ{x:f(x)λ}

λ λff

fXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2λ2<λ1C1C2C1C2= =

Vì vậy, bây giờ tôi có một số dữ liệu được lấy mẫu từ một mật độ. Tôi có thể phân cụm dữ liệu này theo cách phục hồi cây cụm không? Cụ thể, chúng tôi muốn một phương pháp nhất quán theo nghĩa là khi chúng tôi thu thập ngày càng nhiều dữ liệu, ước tính thực nghiệm của chúng tôi về cây chùm ngây ngày càng gần với cây cụm thực sự.

Hartigan là người đầu tiên đặt câu hỏi như vậy và khi làm như vậy, ông đã xác định chính xác ý nghĩa của phương pháp phân cụm theo cấp bậc để ước lượng nhất quán cây cụm. Định nghĩa của anh ấy như sau: Đặt Bcác cụm phân biệt thực sự của f như được định nghĩa ở trên - nghĩa là chúng là các thành phần được kết nối của một số bộ superlevel. Bây giờ, vẽ một tập hợp n mẫu iid từ f và gọi bộ này là X n . Chúng tôi áp dụng phương pháp phân cụm theo cấp bậc cho dữ liệu X n và chúng tôi nhận lại một tập hợp các cụm thực nghiệm . Đặt A nnhỏ nhấtMộtBfnfXnXnMộtnMộtXnBnBXnPr(MộtnBn)= =1nMộtB

Về cơ bản, tính nhất quán của Hartigan nói rằng phương pháp phân cụm của chúng tôi nên phân tách đầy đủ các khu vực có mật độ cao. Hartigan đã điều tra xem liệu phân cụm liên kết đơn có thể nhất quán hay không và thấy rằng nó không nhất quán về kích thước> 1. Vấn đề tìm một phương pháp chung, nhất quán để ước tính cây cụm đã được mở cho đến vài năm trước, khi Chaudhuri và Dasgupta giới thiệu liên kết đơn mạnh mẽ , đó là nhất quán có thể chứng minh. Tôi khuyên bạn nên đọc về phương pháp của họ, vì nó khá thanh lịch, theo ý kiến ​​của tôi.

Vì vậy, để giải quyết các câu hỏi của bạn, có một ý nghĩa trong đó cụm phân cấp là điều "đúng" cần làm khi cố gắng khôi phục cấu trúc của mật độ. Tuy nhiên, lưu ý các trích dẫn sợ hãi xung quanh "đúng" ... Các phương pháp phân cụm dựa trên mật độ cuối cùng có xu hướng hoạt động kém ở các chiều cao do lời nguyền của chiều, và do đó, mặc dù định nghĩa phân cụm dựa trên các cụm là xác suất cao là khá sạch sẽ và trực quan, nó thường bị bỏ qua có lợi cho các phương pháp thực hiện tốt hơn trong thực tế. Điều đó không có nghĩa là liên kết đơn mạnh mẽ không thực tế - nó thực sự hoạt động khá tốt đối với các vấn đề ở kích thước thấp hơn.

Cuối cùng, tôi sẽ nói rằng tính nhất quán của Hartigan theo một nghĩa nào đó không phù hợp với trực giác hội tụ của chúng tôi. Vấn đề là tính nhất quán của Hartigan cho phép một phương pháp phân cụm cho các cụm phân đoạn quá lớn sao cho thuật toán có thể nhất quán với Hartigan, nhưng tạo ra các cụm rất khác so với cây cụm thực sự. Chúng tôi đã sản xuất công việc trong năm nay trên một khái niệm thay thế về sự hội tụ nhằm giải quyết những vấn đề này. Tác phẩm đã xuất hiện trong "Beyond Hartigan Consistency: Hợp nhất số liệu biến dạng cho phân cụm theo cấp bậc" trong COLT 2015.


Đây là một cách suy nghĩ thú vị về phân cụm phân cấp. Tôi thấy nó mạnh mẽ gợi nhớ clustering bởi ước lượng phi tham mật độ ( pdf ), được thực hiện trong Rtrong pdfCluster gói. (Tôi sẽ thảo luận về vấn đề này ở đây .)
gung - Tái lập Monica

HDBSCAN * sử dụng một cách tiếp cận tương tự.
Anony-Mousse -Reinstate Monica

3

k

EDIT nhờ vào ttnphns: Một tính năng mà phân cụm phân cấp chia sẻ với nhiều thuật toán khác là cần phải chọn một thước đo khoảng cách. Điều này thường phụ thuộc nhiều vào ứng dụng và mục tiêu cụ thể. Đây có thể được coi là một biến chứng bổ sung (một tham số khác để chọn ...), nhưng cũng là một tài sản - nhiều khả năng hơn. Ngược lại, thuật toán K-nghĩa cổ điển đặc biệt sử dụng khoảng cách Euclide.


3
Tôi cho rằng "vấn đề" trong đoạn cuối của bạn sẽ được xem là tích cực như một tài sản. K-mean, tuy nhiên, chỉ dựa trên khoảng cách euclide .
ttnphns

Nhiều lựa chọn có thể có thể là một vấn đề cũng như một tài sản, thực sự :) Cảm ơn bạn đã nhận xét về k-mean, tôi sẽ cải thiện đoạn đó.
Jacek Podlewski

kk

Tôi tin rằng câu hỏi ban đầu được đưa ra liên quan đến "phương tiện K cổ điển" và không phải là một ý định nhỏ nhất để đi sâu vào sự khác biệt của Bregman. Mặc dù vậy, tôi sẽ kiểm tra kỹ hơn về bài viết này.
Jacek Podlewski

@mic không ai sử dụng phân kỳ Bregman ngoài các biến thể của khoảng cách Euclide ... đó chỉ là một lớp nhỏ xíu. Nhưng mọi người muốn sử dụng ví dụ như khoảng cách Manhattan, Gower, v.v. mà không phải là phân kỳ Bregman cho tất cả những gì tôi biết.
Anony-Mousse -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.