Các phương pháp phân cụm không yêu cầu xác định trước số lượng cụm


17

Có phương pháp phân cụm "không tham số" nào mà chúng tôi không cần chỉ định số lượng cụm không? Và các tham số khác như số điểm trên mỗi cụm, v.v.

Câu trả lời:


22

Các thuật toán phân cụm yêu cầu bạn chỉ định trước số lượng cụm là một thiểu số nhỏ. Có một số lượng lớn các thuật toán không. Họ rất khó để tóm tắt; nó giống như yêu cầu mô tả về bất kỳ sinh vật nào không phải là mèo.

Các thuật toán phân cụm thường được phân loại thành các vương quốc rộng lớn:

  1. Các thuật toán phân vùng (như k-mean và nó là con cháu)
  2. Phân cụm theo phân cấp (như @Tim mô tả )
  3. Phân cụm dựa trên mật độ (như DBSCAN )
  4. Phân cụm dựa trên mô hình (ví dụ: mô hình hỗn hợp Gaussian hữu hạn hoặc Phân tích lớp tiềm ẩn )

Có thể có các loại bổ sung và mọi người có thể không đồng ý với các loại này và thuật toán nào thuộc loại nào, bởi vì đây là heuristic. Tuy nhiên, một cái gì đó như sơ đồ này là phổ biến. Làm việc từ đây, chủ yếu chỉ là các phương pháp phân vùng (1) yêu cầu đặc tả trước về số lượng cụm cần tìm. Những thông tin nào khác cần được chỉ định trước (ví dụ: số lượng điểm trên mỗi cụm) và liệu có hợp lý không khi gọi các thuật toán khác nhau là "không tham số", cũng rất khó thay đổi và khó tóm tắt.

Phân cụm theo phân cấp không yêu cầu bạn chỉ định trước số lượng cụm, theo cách mà k-mean thực hiện, nhưng bạn chọn một số cụm từ đầu ra của mình. Mặt khác, DBSCAN cũng không yêu cầu (nhưng nó yêu cầu đặc điểm kỹ thuật về số điểm tối thiểu cho một 'khu phố' mặc dù có mặc định, do đó, theo một cách nào đó, bạn có thể bỏ qua việc chỉ định rằng điều đó đặt sàn lên số lượng mẫu trong một cụm). GMM thậm chí không yêu cầu bất kỳ một trong ba điều đó, nhưng không yêu cầu các giả định tham số về quy trình tạo dữ liệu. Theo tôi biết, không có thuật toán phân cụm nào không bao giờ yêu cầu bạn chỉ định một số cụm, số lượng dữ liệu tối thiểu trên mỗi cụm hoặc bất kỳ mẫu / sắp xếp dữ liệu nào trong cụm. Tôi không thấy làm thế nào có thể có.

Nó có thể giúp bạn đọc tổng quan về các loại thuật toán phân cụm khác nhau. Sau đây có thể là một nơi để bắt đầu:

  • Berkhin, P. "Khảo sát kỹ thuật khai thác dữ liệu phân cụm" ( pdf )

Tôi bối rối bởi số 4 của bạn: Tôi nghĩ rằng nếu một mô hình phù hợp với mô hình hỗn hợp Gaussian với dữ liệu thì người ta cần chọn số lượng Gaussian phù hợp, tức là số lượng cụm phải được chỉ định trước. Nếu vậy, tại sao bạn nói rằng "chủ yếu chỉ" # 1 yêu cầu điều này?
amip nói rằng Phục hồi lại

@amoeba, nó phụ thuộc vào phương pháp dựa trên mô hình và cách thức triển khai. GMM thường phù hợp để giảm thiểu một số tiêu chí (ví dụ, hồi quy OLS là, cf ở đây ). Nếu vậy, bạn không chỉ định trước số lượng cụm. Ngay cả khi bạn thực hiện theo một số triển khai khác, đó không phải là một tính năng điển hình cho các phương thức dựa trên mô hình.
gung - Phục hồi Monica

k= =3k

Tôi không thực sự làm theo lập luận của bạn ở đây, @amoeba. Khi bạn phù hợp với mô hình hồi quy đơn giản với thuật toán OLS, bạn sẽ nói rằng bạn đang chỉ định trước độ dốc và đánh chặn, hay thuật toán chỉ định chúng bằng cách tối ưu hóa một tiêu chí? Nếu sau này, tôi không thấy những gì khác nhau ở đây. Điều chắc chắn là bạn có thể tạo một thuật toán meta mới sử dụng phương tiện k là một trong những bước của nó để tìm phân vùng không xác định trước k, nhưng thuật toán meta đó sẽ không phải là phương tiện k.
gung - Phục hồi Monica

1
@amoeba, điều này dường như là một vấn đề ngữ nghĩa, nhưng các thuật toán tiêu chuẩn được sử dụng để phù hợp với một GMM thường tối ưu hóa một tiêu chí. Ví dụ, một lần Mclustsử dụng được thiết kế để tối ưu hóa BIC, nhưng AIC có thể được sử dụng hoặc một chuỗi các thử nghiệm tỷ lệ khả năng. Tôi đoán bạn có thể gọi nó là thuật toán meta, b / c nó có các bước cấu thành (ví dụ: EM), nhưng đó là thuật toán bạn sử dụng, và với bất kỳ giá nào, nó không yêu cầu bạn chỉ định trước k. Bạn có thể thấy rõ trong ví dụ được liên kết của tôi rằng tôi không chỉ định trước k ở đó.
gung - Phục hồi Monica

13

Ví dụ đơn giản nhất là phân cụm theo thứ bậc , trong đó bạn so sánh từng điểm với nhau bằng một số đo khoảng cách , sau đó nối với nhau một cặp có khoảng cách nhỏ nhất để tạo điểm giả nối (ví dụ bc tạo bc như trên ảnh phía dưới). Tiếp theo, bạn lặp lại quy trình bằng cách nối các điểm và giả điểm, dựa trên khoảng cách cặp của chúng cho đến khi mỗi điểm được nối với biểu đồ.

Wikipedia minh họa

(nguồn: https://en.wikipedia.org/wiki/HVELical_clustering )

Thủ tục này là không tham số và điều duy nhất bạn cần cho nó là thước đo khoảng cách. Cuối cùng, bạn cần quyết định cách cắt tỉa biểu đồ cây được tạo bằng thủ tục này, do đó cần đưa ra quyết định về số lượng cụm dự kiến.


Không cắt tỉa bằng cách nào đó có nghĩa là bạn đang quyết định số cụm?
Tìm hiểu_and_Share

1
@MedNait đó là những gì tôi nói. Trong phân tích cụm, bạn luôn phải đưa ra quyết định như vậy, câu hỏi duy nhất là nó được thực hiện như thế nào - ví dụ: nó có thể tùy ý hoặc có thể dựa trên một số tiêu chí hợp lý như phù hợp với mô hình dựa trên khả năng, v.v.
Tim

1
Nó phụ thuộc vào chính xác những gì bạn đang theo đuổi, @MedNait. Phân cụm theo phân cấp không yêu cầu bạn chỉ định trước số lượng cụm, cách mà k-mean thực hiện, nhưng bạn đang chọn một số cụm từ đầu ra của mình. Mặt khác, DBSCAN không yêu cầu (nhưng nó yêu cầu đặc điểm kỹ thuật về số lượng điểm tối thiểu cho 'vùng lân cận' - mặc dù có các giá trị mặc định - sẽ đặt một tầng trên số lượng mẫu trong một cụm) . GMM thậm chí không yêu cầu điều đó, nhưng không yêu cầu các giả định tham số về quy trình tạo dữ liệu. V.v.
gung - Tái lập Monica

10

Các thông số là tốt!

Phương pháp "không tham số" có nghĩa là bạn chỉ nhận được một lần chụp (trừ trường hợp có thể ngẫu nhiên), không có khả năng tùy chỉnh .

Bây giờ phân cụm là một kỹ thuật khám phá . Bạn không được cho rằng có một cụm "đúng" duy nhất . Bạn nên quan tâm đến việc khám phá các cụm khác nhau của cùng một dữ liệu để tìm hiểu thêm về nó. Điều trị phân cụm như một hộp đen không bao giờ hoạt động tốt.

Ví dụ: bạn muốn có thể tùy chỉnh chức năng khoảng cách được sử dụng tùy thuộc vào dữ liệu của bạn (đây cũng là một tham số!) Nếu kết quả quá thô, bạn muốn có được kết quả tốt hơn hoặc nếu nó quá tốt , có được một phiên bản thô hơn của nó.

Các phương pháp tốt nhất thường là những phương pháp cho phép bạn điều hướng kết quả tốt, chẳng hạn như chương trình dendrogram trong phân cụm phân cấp. Sau đó bạn có thể khám phá các cấu trúc dễ dàng.


0

Kiểm tra các mô hình hỗn hợp Dirichlet . Chúng cung cấp một cách tốt để hiểu dữ liệu nếu bạn không biết trước số lượng cụm. Tuy nhiên, họ đưa ra các giả định về hình dạng của các cụm mà dữ liệu của bạn có thể vi phạm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.