Làm thế nào để chọn một phương pháp phân cụm? Làm thế nào để xác nhận một giải pháp cụm (để đảm bảo sự lựa chọn phương pháp)?

Một trong những vấn đề lớn nhất với phân tích cụm là chúng ta có thể phải rút ra kết luận khác nhau khi dựa trên các phương pháp phân cụm khác nhau (bao gồm các phương pháp liên kết khác nhau trong phân cụm theo phân cấp).

Tôi muốn biết ý kiến của bạn về điều này - bạn sẽ chọn phương pháp nào, và làm thế nào. Người ta có thể nói "phương pháp phân cụm tốt nhất là cho bạn câu trả lời đúng"; nhưng tôi có thể đặt câu hỏi để đáp lại rằng phân tích cụm được cho là một kỹ thuật không được giám sát - vậy làm thế nào để tôi biết phương pháp hoặc liên kết nào là câu trả lời đúng?

Nói chung: một cụm có đủ mạnh để dựa vào không? Hoặc chúng ta cần một phương pháp thứ hai và nhận được một kết quả được chia sẻ dựa trên cả hai?

Câu hỏi của tôi không chỉ là về các cách có thể để xác nhận / đánh giá hiệu suất phân cụm, mà còn rộng hơn - trên cơ sở nào chúng ta chọn / thích một phương pháp / thuật toán phân cụm hơn một phương pháp khác. Ngoài ra, có những cảnh báo phổ biến mà chúng ta nên xem xét xung quanh khi chúng ta đang chọn một phương thức để phân cụm dữ liệu của mình không?

Tôi biết rằng đó là câu hỏi rất chung chung và rất khó trả lời. Tôi chỉ muốn biết nếu bạn có bất kỳ bình luận hoặc bất kỳ lời khuyên hoặc bất kỳ đề nghị cho tôi để tìm hiểu thêm về điều này.

— Người học
nguồn

Kiểm tra câu hỏi tương tự này .

— ttnphns

Và này một.

— ttnphns

Một số liên kết cụ thể về xác nhận nội bộ và bên ngoài: này . Và này . Và đó . Và đó . Và đó . Và này . Và đằng kia . Và tìm kiếm thêm.

— ttnphns

Câu trả lời:

Thông thường họ nói rằng không có kỹ thuật phân tích nào khác mạnh mẽ như kiểu "như bạn gieo bạn sẽ cắt", như phân tích cụm.

Tôi có thể tưởng tượng về một số chiều hoặc các khía cạnh của "tính đúng" của phương pháp phân cụm này hoặc phương pháp phân cụm đó :

Ẩn dụ cụm . "Tôi thích phương pháp này vì nó tạo thành các cụm như vậy (hoặc theo cách đó) đáp ứng với khái niệm của tôi về một cụm trong dự án cụ thể của tôi" . Mỗi thuật toán phân cụm hoặc thuật toán con / phương thức ngụ ý cấu trúc / xây dựng / hình dạng tương ứng của cụm. Liên quan đến các phương pháp phân cấp, tôi đã quan sát điều này ở một trong những điểm ở đây và cũng ở đây. Tức là một số phương thức đưa ra các cụm là "kiểu" nguyên mẫu, các phương thức khác đưa ra "vòng tròn [theo sở thích]", vẫn là các "nền tảng [chính trị" khác, "lớp", "chuỗi", v.v. Chọn phương thức mà phép ẩn dụ cụm đó phù hợp với bạn. Ví dụ: nếu tôi thấy các phân khúc khách hàng của mình là các loại - hình dạng hình cầu nhiều hơn hoặc ít hơn với (các) hình nén ở giữa, tôi sẽ chọn phương thức liên kết của Ward hoặc phương tiện K, nhưng không bao giờ rõ ràng là phương pháp liên kết đơn lẻ. Nếu tôi cần một điểm đại diện đầu mối, tôi có thể sử dụng phương pháp medoid. Nếu tôi cần sàng lọc các điểm để chúng là đại diện cốt lõi và ngoại vi, tôi có thể sử dụng phương pháp DBSCAN.
Giả định dữ liệu / phương pháp . "Tôi thích phương pháp này vì bản chất hoặc định dạng dữ liệu của tôi có xu hướng phù hợp với nó" . Điểm quan trọng và rộng lớn này cũng được đề cập trong liên kết của tôi ở trên. Các thuật toán / phương pháp khác nhau có thể yêu cầu loại dữ liệu khác nhau cho chúng hoặc các biện pháp gần nhau khác nhau được áp dụng cho dữ liệu và ngược lại, các dữ liệu khác nhau có thể yêu cầu các phương pháp khác nhau. Có phương pháp định lượng và phương pháp cho dữ liệu định tính. Các tính năng định lượng + định lượng hỗn hợp thu hẹp đáng kể phạm vi lựa chọn giữa các phương pháp. Phường hoặc K-nghĩachỉ dựa trên - một cách rõ ràng hoặc ngầm định - trên (bình phương) biện pháp khoảng cách khoảng cách euclide và không dựa trên biện pháp tùy ý. Dữ liệu nhị phân có thể yêu cầu các biện pháp tương tự đặc biệt mà lần lượt sẽ đặt câu hỏi mạnh mẽ bằng cách sử dụng một số phương pháp, ví dụ như phương tiện của Ward hoặc K, cho chúng. Dữ liệu lớn có thể cần các thuật toán đặc biệt hoặc triển khai đặc biệt.
$^1$ về), vì vậy tính hợp lệ cao có thể một phần do tính đặc thù ngẫu nhiên của tập dữ liệu đã cho; có một tập dữ liệu thử nghiệm luôn có lợi.]
Giá trị bên ngoài . "Tôi thích phương pháp này bởi vì nó cho tôi các cụm khác nhau bởi nền hoặc cụm của chúng khớp với các cụm thực sự mà tôi biết" . Nếu một phân vùng phân cụm trình bày các cụm khác nhau rõ ràng trên một số nền tảng quan trọng (nghĩa là không tham gia vào phân tích cụm) thì đó là một tài sản cho phương thức tạo ra phân vùng đó. Sử dụng bất kỳ phân tích nào áp dụng để kiểm tra sự khác biệt; cũng tồn tại một số tiêu chí phân cụm bên ngoài hữu ích(Rand, F-đo, v.v.). Một biến thể khác của trường hợp xác nhận bên ngoài là khi bạn bằng cách nào đó biết các cụm thực sự trong dữ liệu của mình (biết "sự thật mặt đất"), chẳng hạn như khi bạn tự tạo các cụm. Sau đó, cách chính xác phương pháp phân cụm của bạn có thể khám phá các cụm thực sự là thước đo hiệu lực bên ngoài.
Hiệu lực chéo . "Tôi thích phương pháp này vì nó cho tôi các cụm rất giống nhau trên các mẫu dữ liệu tương đương hoặc ngoại suy tốt trên các mẫu như vậy" . Có nhiều cách tiếp cận khác nhau và các giống lai của chúng, một số khả thi hơn với một số phương pháp phân cụm trong khi các phương pháp khác với các phương pháp khác. Hai cách tiếp cận chính là kiểm tra độ ổn định và tính tổng quátkiểm tra. Kiểm tra tính ổn định của phương pháp phân cụm, người ta chia ngẫu nhiên hoặc chia nhỏ dữ liệu theo các bộ giao nhau hoặc tách rời hoàn toàn và thực hiện phân cụm trên mỗi bộ; sau đó khớp và so sánh các giải pháp với một số đặc điểm cụm nổi lên (ví dụ: vị trí xu hướng trung tâm của cụm) xem nó có ổn định trên các tập hợp không. Kiểm tra tính tổng quát ngụ ý thực hiện phân cụm trên tập tàu và sau đó sử dụng đặc tính hoặc quy tắc cụm nổi lên của nó để gán các đối tượng của tập kiểm tra, cộng với thực hiện phân cụm trên tập kiểm tra. Sau đó, các thành viên cụm kết quả phân công và kết quả phân cụm của các đối tượng tập kiểm tra được so sánh.
Giải thích . "Tôi thích phương pháp này bởi vì nó mang lại cho tôi các cụm, theo giải thích, có sức thuyết phục nhất là có ý nghĩa trên thế giới" . Nó không thống kê - đó là xác nhận tâm lý của bạn. Kết quả có ý nghĩa như thế nào đối với bạn, tên miền và, có thể là khán giả / khách hàng. Chọn phương pháp cho kết quả cay, dễ hiểu nhất.
Tính hiếu chiến . Một số nghiên cứu thường xuyên và tất cả các nghiên cứu thỉnh thoảng sẽ nói "Tôi thích phương pháp này vì nó mang lại kết quả tương tự với dữ liệu của tôi với một số phương pháp khác trong số tất cả những phương pháp mà tôi đã nghiên cứu" . Đây là một chiến lược heuristic nhưng đáng nghi ngờ, giả định rằng tồn tại dữ liệu khá phổ quát hoặc phương pháp khá phổ quát.

Điểm 1 và 2 là lý thuyết và trước khi có kết quả; độc quyền dựa vào những điểm này là chiến lược thám hiểm kiêu căng, tự tin. Điểm 3, 4 và 5 là theo kinh nghiệm và theo kết quả; độc quyền dựa vào những điểm này là chiến lược khám phá đầy thử thách. Điểm 6 là sáng tạo có nghĩa là nó từ chối bất kỳ kết quả nào để cố gắng điều chỉnh lại nó. Điểm 7 là mauvaise foi trung thành.

Điểm 3 đến 7 cũng có thể là giám khảo trong việc lựa chọn số cụm "tốt nhất" của bạn .

$^1$

— ttnphns
nguồn

Tôi thực sự thích các biện pháp hiệu lực nội bộ, như tổng các phương sai trong cụm trong K-mean và phân cụm phân cấp Ward, cũng như các chỉ số Dunn. Chúng độc lập với dữ liệu và đôi khi thậm chí độc lập với thuật toán phân cụm, mặc dù một số trong số chúng chỉ có ý nghĩa với các thuật toán cụ thể.

— Douglas De Rizzo Meneghetti

@DoumundDeRizzoMITEDhetti Tôi không đồng ý. Chúng không độc lập với dữ liệu (chúng đưa ra các giả định rất mạnh về dữ liệu của bạn, chẳng hạn như tuyến tính và tính tương đương của các thuộc tính) cũng không độc lập với thuật toán phân cụm. Trong thực tế, mỗi biện pháp nội bộ là một thuật toán phân cụm của riêng nó (bạn có thể tối ưu hóa cho chức năng này - nó thường quá tốn kém để làm).

— Anony-Mousse

Tôi hiểu rằng một số biện pháp hiệu lực nội bộ, như tổng phương sai trong cụm, có kết quả tốt hơn nếu tư cách thành viên cụm được mua thông qua phương pháp phân cụm có xu hướng giảm thiểu tổng phương sai trong cụm và đo lường hiệu lực như Dunn các chỉ mục giả định các cụm tốt là nhỏ gọn và cách xa nhau (mặc dù các cách hiểu "nhỏ gọn" và "cách xa nhau" bị bỏ ngỏ để giải thích), nhưng thực tế là bạn có thể tính toán các biện pháp này chỉ bằng các giá trị tính năng và tư cách thành viên của cụm các yếu tố làm cho chúng khá linh hoạt.

— Douglas De Rizzo Meneghetti

Có hầu hết các tiêu chí cờ đỏ . Thuộc tính của dữ liệu cho bạn biết rằng một cách tiếp cận nhất định sẽ thất bại chắc chắn.

nếu bạn không biết dữ liệu của bạn có nghĩa là ngừng phân tích nó. bạn chỉ đang đoán động vật trên mây.
nếu các thuộc tính khác nhau về tỷ lệ và là phi tuyến hoặc lệch. điều này có thể làm hỏng phân tích của bạn trừ khi bạn có một ý tưởng rất tốt về chuẩn hóa phù hợp. Dừng lại và học cách hiểu các tính năng của bạn, còn quá sớm để phân cụm.
nếu mọi thuộc tính đều tương đương (cùng tỷ lệ) và tuyến tính và bạn muốn định lượng tập dữ liệu của mình (và lỗi bình phương nhỏ nhất có ý nghĩa đối với dữ liệu của bạn), thì phương tiện k đáng để thử. Nếu thuộc tính của bạn thuộc loại và tỷ lệ khác nhau, kết quả không được xác định rõ. Ví dụ: tuổi và thu nhập. Thu nhập rất sai lệch, và x years = y dollarvô nghĩa.
nếu bạn có một ý tưởng rất rõ ràng về cách định lượng độ tương tự hoặc khoảng cách (một cách có ý nghĩa ; khả năng tính toán một số là không đủ) thì phân cụm phân cấp và DBSCAN là một lựa chọn tốt. Nếu bạn không biết làm thế nào để định lượng độ tương tự, trước tiên hãy giải quyết vấn đề đó.

Bạn thấy rằng vấn đề phổ biến nhất là mọi người cố gắng chuyển dữ liệu thô của họ thành cụm, khi trước tiên họ cần hiểu và bình thường hóa nó, và tìm ra sự tương tự.

Ví dụ:

Điểm ảnh của một hình ảnh trong không gian RGB. Least-squares làm cho một số ý nghĩa và tất cả các thuộc tính đều có thể so sánh - k-mean là một lựa chọn tốt.
Dữ liệu địa lý: hình vuông nhỏ nhất không phù hợp lắm. sẽ có những ngoại lệ nhưng khoảng cách rất có ý nghĩa. Sử dụng DBSCAN nếu bạn có nhiều tiếng ồn, hoặc HAC (phân cụm kết tụ phân cấp) nếu bạn có dữ liệu rất sạch.
Loài quan sát trong môi trường sống khác nhau. Least-squares là đáng ngờ, nhưng ví dụ tương tự Jaccard là có ý nghĩa. Bạn có thể chỉ có một vài quan sát và không có môi trường sống "sai" - sử dụng HAC.

— Anony-Mousse
nguồn

+1. Tôi chỉ cầu xin bạn tìm một biểu hiện khác thay vì stop criteria. Vì, như bạn đã biết, "quy tắc dừng" hoặc "tiêu chí dừng" là từ đồng nghĩa với "tiêu chí phân cụm nội bộ" trong miền phân cụm phân cấp. Vì vậy, đó là một thuật ngữ bận tâm. Nhưng bạn có nghĩa là những từ này theo nghĩa khác nhau trong câu trả lời, và điều này có thể gây nhầm lẫn cho người đọc.

— ttnphns

Làm thế nào về "tiêu chí cờ đỏ"? Ngưỡng ngưỡng cho HAC, tôi thấy quan điểm của bạn.

— Anony-Mousse

Tuyệt vời cho tôi, sự lựa chọn tốt đẹp.

— ttnphns

Trong pts 2,3 bạn nói (non)linear attributes. Ý anh là gì? Theo cách nào một thuộc tính "tuyến tính"? hoặc bạn đang nói về các mối quan hệ tuyến tính , tức là hình dạng elip (và không cong) của các cụm?

— ttnphns

Dữ liệu với ví dụ phân phối theo cấp số nhân.

— Anony-Mousse

Tôi không nghĩ có một cách chính thức tốt để làm điều này; Tôi nghĩ rằng các giải pháp tốt là những giải pháp có ý nghĩa, thực chất.

Tất nhiên, bạn có thể thử chia dữ liệu và phân cụm nhiều lần và cứ thế một lần, nhưng sau đó vẫn còn câu hỏi cái nào là hữu ích.

— Peter Flom - Tái lập Monica
nguồn

Tôi nghĩ rằng thuật ngữ có ý nghĩa không thể được nhấn mạnh đủ. Đó cũng là điểm cốt lõi trong câu trả lời của tôi - bạn cần hiểu ý nghĩa của dữ liệu trước.

— Anony-Mousse

@ Anony-Mousse, đó là một sự quá mức từ phía bạn. Tôi cá là những người không biết cách hoặc quên "hiểu" dữ liệu của họ hầu như không truy cập trang web này và họ không hỏi những câu hỏi hay như câu hỏi ở đây.

— ttnphns

@ttnphns Tôi không biết tần suất những người như vậy truy cập trang web này và họ chắc chắn không hỏi những câu hỏi như vậy. Nhưng nhiều người mong đợi phân tích cụm hoạt động giống như một hàm Excel. Chọn dữ liệu, nhấp vào "cụm" và đi ra các phân khúc khách hàng kỳ diệu. Mà dường như không bao giờ làm việc tốt hơn nhiều so với ngẫu nhiên. Và ví dụ: người dùng này không hiểu dữ liệu của anh ấy: stats.stackexchange.com/q/195521/7828

— Anony-Mousse