Đo lường chất lượng cụm

17

Tôi có một thuật toán phân cụm (không phải k-nghĩa) với tham số đầu vào (số lượng cụm). Sau khi thực hiện phân cụm, tôi muốn có được một số đo định lượng về chất lượng của phân cụm này. Thuật toán phân cụm có một thuộc tính quan trọng. Với nếu tôi cung cấp điểm dữ liệu mà không có sự phân biệt đáng kể nào giữa chúng với thuật toán này, kết quả là tôi sẽ nhận được một cụm chứa điểm dữ liệu và một cụm có điểm dữ liệu. Rõ ràng đây không phải là điều tôi muốn. Vì vậy, tôi muốn tính toán thước đo chất lượng này để ước tính tính hợp lý của cụm này. Lý tưởng nhất là tôi sẽ có thể so sánh các biện pháp này cho khác nhau . Vì vậy, tôi sẽ chạy phân cụm trong phạm vi $k$ $k=2$ $N$ $N-1$ $1$ $k$ $k$ và chọn một trong những chất lượng tốt nhất. Làm thế nào để tôi tính toán đo lường chất lượng như vậy?

CẬP NHẬT:

Đây là một ví dụ khi là một cụm xấu. Giả sử có 3 điểm trên một mặt phẳng tạo thành tam giác đều. Chia các điểm này thành 2 cụm rõ ràng là tồi tệ hơn so với việc chia chúng thành 1 hoặc 3 cụm. $(N-1, 1)$

clustering

— Tối đa
nguồn

Đối với tôi điều này là không rõ ràng. Tôi thấy các cụm trong thực tế có kích thước khác nhau mọi lúc ...

— Anony-Mousse -Reinstate Monica

12

Việc lựa chọn số liệu thay vì phụ thuộc vào mục đích của việc phân cụm là gì. Cá nhân tôi nghĩ rằng việc phân cụm phải là về việc xác định các nhóm quan sát khác nhau, mỗi nhóm được tạo bởi một quy trình tạo dữ liệu khác nhau. Vì vậy, tôi sẽ kiểm tra chất lượng của một cụm bằng cách tạo dữ liệu từ các quy trình tạo dữ liệu đã biết và sau đó tính toán tần suất các mẫu bị phân loại sai bởi phân cụm. Tất nhiên điều này liên quan đến việc đưa ra các giả định về việc phân phối các mẫu từ mỗi quy trình tạo, nhưng bạn có thể sử dụng các bộ dữ liệu được thiết kế để phân loại có giám sát.

Những người khác xem phân cụm là cố gắng nhóm các điểm với các giá trị thuộc tính tương tự, trong trường hợp đó các biện pháp như SSE, v.v. Tuy nhiên, tôi thấy định nghĩa phân cụm này không thỏa đáng, vì nó chỉ cho bạn biết điều gì đó về mẫu dữ liệu cụ thể, chứ không phải là một cái gì đó chung chung về các bản phân phối cơ bản. Cách các phương thức xử lý các cụm chồng chéo là một vấn đề cụ thể với chế độ xem này (đối với chế độ xem "quá trình tạo dữ liệu", nó không gây ra vấn đề thực sự nào, bạn chỉ cần có xác suất thành viên của cụm).

— Sao Hỏa Dikran
nguồn

3

+1 để làm nổi bật sự khác biệt giữa phân cụm dựa trên mô hình so với phân cụm không giám sát dựa trên khoảng cách hoàn toàn.

— chl

1

Tôi nghĩ rằng cả hai mục đích có sử dụng faire của họ trong các cài đặt khác nhau. Có nhiều bối cảnh bạn thực sự làm để chỉ nhìn vào dữ liệu trong tay (ví dụ: định nghĩa ngoại lệ). Ngoài ra, trước khi có thể có được các quy trình tạo dữ liệu khác nhau, bạn cần khám phá được thực hiện tốt nhất với định nghĩa thứ hai của bạn ...

— Etienne Low-Décarie

Tôi đồng ý Etienne rằng cả hai phương pháp đều có công dụng của chúng. Tuy nhiên, tôi cũng sẽ nói rằng việc quan sát là ngoại lệ hay không hoàn toàn đưa ra một số giả định về quy trình tạo dữ liệu, vì vậy hình thức phân cụm thứ hai có lẽ chỉ dành cho bước đầu tiên để hiểu dữ liệu khi bạn đang cố gắng tự định hướng đúng.

— Dikran Marsupial

4

Vì việc phân cụm không được giám sát, thật khó để biết một tiên nghiệm thế nào là phân cụm tốt nhất. Đây là chủ đề nghiên cứu. Gary King, một nhà khoa học xã hội định lượng nổi tiếng, có một bài viết sắp tới về chủ đề này.

+! Yup; @Max Bạn nghĩ cụm "rõ ràng" này sẽ là gì?

@mbq: Thật ra tôi không biết điều gì sẽ là một cụm tốt cho việc này. Bởi "rõ ràng" tôi cho rằng (N-1, 1) chắc chắn không phải là một cụm tốt cho việc này. Một cụm tốt hơn sẽ chỉ là một cụm, vì vậy không có cụm nào cả. Hoặc có thể một số cụm với số lượng cụm nhiều hơn 2.

— Tối đa

Liên kết của bạn dường như bị phá vỡ.

— Etienne Low-Décarie

Đây là liên kết được cập nhật tới bài viết: gking.harvard.edu/files/abs/discov-abs.shtml

— Dolan Antenucci 17/03/2016

4

Ở đây bạn có một vài biện pháp, nhưng còn nhiều biện pháp khác:

SSE: tổng lỗi vuông từ các mục của mỗi cụm.

Khoảng cách giữa các cụm: tổng khoảng cách vuông giữa mỗi trung tâm cụm.

Khoảng cách cụm nội bộ cho mỗi cụm: tổng khoảng cách vuông từ các mục của mỗi cụm đến tâm của nó.

Maximum Radius: khoảng cách lớn nhất từ một thể hiện đến trọng tâm cụm của nó.

Trung bình bán kính: tổng khoảng cách lớn nhất từ một thể hiện đến trọng tâm cụm của nó chia cho số lượng cụm.

— mariana mềm hơn
nguồn

Tôi đã thử sử dụng nội bộ trong khoảng cách giữa các cụm, nhưng không thể nghĩ ra thứ gì đó hữu ích cho một cụm có một điểm. Ngoài ra tôi không có một điểm trung tâm. Tôi chỉ có khoảng cách giữa các điểm.

— Tối đa

Khoảng cách giữa các cụm càng cao càng tốt, bạn có thể đo nó bằng cách tính khoảng cách giữa tâm của cụm.

— mariana nhẹ nhàng hơn

4

Bạn đã chạy vào khu vực xác thực cụm. Học sinh của tôi đã xác nhận bằng cách sử dụng các kỹ thuật được mô tả trong:

A. Banerjee và RN Dave. Xác nhận các cụm bằng cách sử dụng thống kê hopkins. Hội nghị quốc tế về 2004 về các hệ thống mờ IEEE Cat No04CH37542, 1: p. 149 Gian153, 2004.

Nó dựa trên nguyên tắc, nếu một cụm hợp lệ thì các điểm dữ liệu được phân phối đồng đều trong một cụm.

Nhưng trước đó, bạn nên xác định xem dữ liệu của mình có bất kỳ cái gọi là Khuynh hướng phân cụm tức là nếu nó có giá trị phân cụm và số cụm tối ưu:

S. Saitta, B. Raphael và IFC Smith. Một chỉ số hiệu lực toàn diện cho phân cụm. Intell. Dữ liệu phân tích., 12 (6): p. 529 bóng548, 2008.

— chuối.zuokas
nguồn

3

Như những người khác đã chỉ ra, có nhiều biện pháp phân cụm "chất lượng"; hầu hết các chương trình giảm thiểu SSE. Không một con số nào có thể nói nhiều về tiếng ồn trong dữ liệu, hoặc tiếng ồn trong phương thức, hoặc cực tiểu phẳng - điểm thấp ở Saskatchewan.

Vì vậy, trước tiên hãy thử trực quan hóa, cảm nhận, một cụm cho trước, trước khi giảm nó xuống "41". Sau đó thực hiện 3 lần chạy: bạn có nhận được SSE 41, 39, 43 hoặc 41, 28, 107 không? Các kích thước cụm và bán kính là gì?

(Đã thêm :) Hãy xem sơ đồ hình bóng và điểm số hình bóng, ví dụ như trong cuốn sách của Izenman, Kỹ thuật thống kê đa biến hiện đại (2008, 731p, isbn 0387781889).

— từ chối
nguồn

3

Các Silhouette có thể được sử dụng để đánh giá kết quả phân nhóm. Nó làm như vậy bằng cách so sánh khoảng cách trung bình trong một cụm với khoảng cách trung bình với các điểm trong cụm gần nhất.

— bã nhờn
nguồn

2

Một phương pháp như được sử dụng trong rừng ngẫu nhiên không giám sát có thể được sử dụng.

Các thuật toán Random Forest coi phân loại không giám sát là một vấn đề hai lớp, là một tập hợp dữ liệu ngẫu nhiên và nhân tạo hoàn toàn khác nhau được tạo ra từ tập dữ liệu đầu tiên bằng cách loại bỏ cấu trúc phụ thuộc trong dữ liệu (ngẫu nhiên).

Sau đó, bạn có thể tạo một tập dữ liệu nhân tạo và ngẫu nhiên như vậy, áp dụng mô hình phân cụm của bạn và so sánh số liệu bạn chọn (ví dụ: SSE) trong dữ liệu thực và dữ liệu ngẫu nhiên của bạn.

Việc trộn ngẫu nhiên, hoán vị, bootstrapping, đóng gói và / hoặc jacknifing có thể cho bạn một thước đo tương tự với giá trị P bằng cách đo số lần mô hình phân cụm đã cho cung cấp cho bạn một giá trị nhỏ hơn cho dữ liệu thật của bạn so với dữ liệu ngẫu nhiên của bạn sự lựa chọn (ví dụ: SSE, hoặc dự đoán lỗi túi).

Do đó, số liệu của bạn là sự khác biệt (xác suất, chênh lệch kích thước, ...) trong bất kỳ số liệu lựa chọn nào giữa dữ liệu thật và ngẫu nhiên.

Lặp lại điều này cho nhiều mô hình sẽ cho phép bạn phân biệt giữa các mô hình.

Điều này có thể được thực hiện trong R.

Randomforest có sẵn trong R

— Etienne Low-Décarie
nguồn

+1, tôi thích ý tưởng này; tuy nhiên, ngẫu nhiên / hoán vị dữ liệu sẽ chỉ phá vỡ các biến b / t quan hệ, điều này sẽ không hoạt động nếu có cụm biến đơn w / ia.

— gung - Phục hồi Monica

1

Nếu thuật toán phân cụm không xác định, thì hãy thử đo "tính ổn định" của các cụm - tìm hiểu tần suất mỗi hai quan sát thuộc về cùng một cụm. Đó là phương pháp thú vị, hữu ích cho việc chọn thuật toán k trong kmeans.

— Qbik
nguồn