Độ phức tạp tính toán của các thuật toán phân cụm


8

Mong muốn của tôi là mô tả sự phức tạp thời gian của một số phương pháp phân cụm. Ví dụ: giả sử chúng ta có điểm dữ liệu trong không gian chiều.mnm

Giả sử thêm rằng ma trận độ không tương đồng theo cặp của kích thước đã được tính toán và chúng tôi đã trải qua các bước . Thế thì phức tạp thời gian là gìn × n O ( m n 2 )Δn×nÔi(mn2)

  • phân cụm phân cấp (HC) bằng cách sử dụng liên kết của Ward
  • HC sử dụng liên kết hoàn chỉnh
  • HC sử dụng liên kết trung bình
  • HC sử dụng liên kết đơn
  • kphương pháp -medoid
  • kphương pháp -means

Có bất kỳ lợi ích nếu ma trận không giống nhau chưa được tính toán? Theo tôi hiểu thì cần thiết cho phương pháp HC và k -medoid nhưng không phải cho k --means?Δkk

Cảm ơn sự giúp đỡ của bạn!


Đây là một câu hỏi CS, không phải là một câu hỏi về phân tích thống kê. Nó sẽ hoàn toàn phù hợp với trang SE về các thuật toán hiện đang trong giai đoạn đề xuất tại area51.stackexchange.com/proposeals/5120/ .
whuber

Bạn cũng có thể chuyển đổi ma trận khoảng cách thành một biểu đồ có trọng số cạnh và áp dụng các phương pháp phân cụm biểu đồ (ví dụ: thuật toán phân cụm Markov của Van Dongen hoặc thuật toán phân cụm tìm kiếm lân cận hạn chế của tôi), nhưng đây là câu hỏi HOẶC hơn là một câu hỏi thuật toán đơn giản (không phải đề cập rằng các thuật toán phân cụm đồ thị thường không phù hợp với các đồ thị dày đặc, loại này đánh bại mục đích biến ma trận khoảng cách thành đồ thị)
Andrew D. King

Câu trả lời:


7

Phân cụm liên kết đơn gần giống như các cây bao trùm tối thiểu trong các biểu đồ hoàn chỉnh, thời gian O (n ^ 2) dễ dàng. Trong thời gian O (n ^ 2) cho các phương pháp phân cụm liên kết khác (bao gồm cả tôi khá chắc chắn liên kết trung bình và hoàn chỉnh), hãy xem bài viết của tôi "Phân cụm nhanh phân cấp và các ứng dụng khác của các cặp gần nhất động", SODA '98 và JEA '00.


6

kÔi(kn)kk

kk


3
Tại sao nó "không có ý nghĩa"? Có một số bài báo gần đây về số lần lặp cho đến khi k-mean hội tụ (có nghĩa là phép lặp không thay đổi cụm) hoặc cho đến khi nó đạt được tỷ lệ xấp xỉ mong muốn.
Jeffε

nhưng họ giả sử một số thuộc tính của dữ liệu hoặc một số biến thể cụ thể của thuật toán (như phương pháp k-mean ++ hoặc biến thể được làm mịn). Câu hỏi khi tôi đọc dường như đề cập nhiều hơn đến các biến thể chung. Quan điểm của bạn được thực hiện tốt mặc dù.
Suresh Venkat
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.