Chọn phương pháp liên kết đúng cho phân cụm phân cấp


33

Tôi đang thực hiện phân cụm theo phân cấp trên dữ liệu tôi đã thu thập và xử lý từ kết xuất dữ liệu reddit trên Google BigQuery.

Quá trình của tôi là như sau:

  • Nhận 1000 bài đăng mới nhất trong / r / chính trị
  • Tập hợp tất cả các ý kiến
  • Xử lý dữ liệu và tính toán n x mma trận dữ liệu (n: người dùng / mẫu, m: bài đăng / tính năng)
  • Tính toán ma trận khoảng cách để phân cụm
  • Chọn một phương thức liên kết và thực hiện phân cụm phân cấp
  • Vẽ dữ liệu dưới dạng dendrogram

Câu hỏi của tôi là, làm thế nào để tôi xác định phương pháp liên kết tốt nhất là gì? Tôi hiện đang sử dụng Wardnhưng làm thế nào để tôi biết nếu tôi nên sử dụng single, complete, average, vv?

Tôi rất mới với những thứ này nhưng tôi không thể tìm thấy câu trả lời rõ ràng trên mạng vì tôi không chắc có một câu trả lời. Vì vậy, những gì có thể là một ý tưởng tốt cho ứng dụng của tôi? Lưu ý rằng dữ liệu tương đối thưa thớt theo nghĩa là n x mma trận có rất nhiều số không (hầu hết mọi người không bình luận về nhiều hơn một vài bài đăng).


Đặt vấn đề liên kết cụ thể sang một bên, "tốt nhất" nghĩa là gì trong ngữ cảnh của bạn?
gung - Tái lập Monica

Tốt nhất cho tôi là tìm cách hợp lý nhất để liên kết loại dữ liệu của tôi. tức là: cách tiếp cận xác định chính xác ý nghĩa của "khoảng cách" trong các tính năng của tôi.
Kevin Eger

2
Kevin, hãy có một cái nhìn trên này câu trả lời và rất gần đây này câu hỏi . Bạn sẽ biết rằng câu hỏi ("phương pháp nào sẽ sử dụng") mà bạn đang đặt ra không phải là câu hỏi dễ. Bạn chắc chắn nên đọc tài liệu về phân cụm (ít nhất là phân cấp) trước khi bạn có thể thấy sự khác biệt giữa các phương thức và có thể chọn. Phân tích dữ liệu không được xử lý một cách khéo léo.
ttnphns

1
@ttnphns, cảm ơn vì liên kết - đã được đọc và tôi sẽ cân nhắc những điểm đó.
Kevin Eger

Câu trả lời:


58

Tổng quan về phương pháp

Tài liệu tham khảo ngắn về một số phương pháp liên kết của phân tích cụm kết tụ phân cấp (HAC).

Phiên bản cơ bản của thuật toán HAC là một bản chung; ở mỗi bước, theo công thức được gọi là công thức Lance-Williams, sự gần đúng giữa cụm nổi lên (hợp nhất hai) và tất cả các cụm khác (bao gồm cả các đối tượng đơn lẻ) cho đến nay. Có những triển khai không sử dụng công thức Lance-Williams. Nhưng sử dụng nó rất thuận tiện: nó cho phép một mã các phương thức liên kết khác nhau theo cùng một khuôn mẫu.

Công thức lặp lại bao gồm một số tham số (alpha, beta, gamma). Tùy thuộc vào phương thức liên kết, các tham số được đặt khác nhau và do đó công thức không được bao bọc có được một chế độ xem cụ thể. Nhiều văn bản trên HAC cho thấy công thức, các quan điểm cụ thể về phương pháp và giải thích các phương pháp. Tôi muốn giới thiệu các bài viết của Janos Podani là rất kỹ lưỡng.

Căn phòng và nhu cầu về các phương pháp khác nhau phát sinh từ thực tế là khoảng cách (khoảng cách hoặc độ tương tự) giữa hai cụm hoặc giữa một cụm và một đối tượng đơn lẻ có thể được hình thành theo nhiều cách khác nhau. HAC hợp nhất ở mỗi bước hai cụm hoặc điểm gần nhất, nhưng làm thế nào để tính toán độ gần đã nói ở trên mà ma trận độ gần đầu vào chỉ được xác định giữa các đối tượng đơn lẻ, là vấn đề cần hình thành.

Vì vậy, các phương thức khác nhau về cách chúng xác định khoảng cách giữa hai cụm bất kỳ ở mỗi bước. "Hệ số đối chiếu" (đầu ra trong lịch trình / lịch sử tích tụ và hình thành trục "Y" trên một dendrogram) chỉ là khoảng cách giữa hai cụm được hợp nhất tại một bước nhất định.

  • Phương pháp liên kết đơn hoặc hàng xóm gần nhất . Khoảng cách giữa hai cụm là khoảng cách giữa hai đối tượng gần nhất của chúng. Giá trị này là một trong những giá trị của ma trận đầu vào. Các ẩn dụ khái niệm này được xây dựng cụm, nguyên mẫu của nó, là quang phổ hoặc chuỗi . Chuỗi có thể là thẳng hoặc cong, hoặc có thể giống như chế độ xem "bông tuyết" hoặc "amip". Hai thành viên cụm khác nhau nhất có thể xảy ra rất giống nhau so với hai thành viên giống nhau nhất. Phương pháp liên kết đơn chỉ kiểm soát sự tương đồng lân cận gần nhất.

  • Phương pháp liên kết hoàn chỉnh hoặc hàng xóm xa nhất . Khoảng cách giữa hai cụm là khoảng cách giữa hai vật ở xa nhất của chúng. Giá trị này là một trong những giá trị của ma trận đầu vào. Phép ẩn dụ của cụm được xây dựng này là hình tròn (theo nghĩa, theo sở thích hoặc cốt truyện) trong đó hai thành viên xa nhau nhất không thể giống nhau hơn nhiều so với các cặp khá khác nhau (như trong vòng tròn). Các cụm như vậy là các đường viền "nhỏ gọn" bởi đường viền của chúng, nhưng chúng không nhất thiết phải nhỏ gọn bên trong.

  • Phương pháp liên kết trung bình giữa các nhóm (UPGMA). Sự gần gũi giữa hai cụm là giá trị trung bình số học của tất cả các giá trị gần đúng giữa các đối tượng của một, một bên và các đối tượng của bên kia, ở phía bên kia. Phép ẩn dụ của cụm được xây dựng này khá chung chung, chỉ là lớp thống nhất hoặc tập thể gần gũi; và phương thức này thường được đặt mặc định trong các gói phân cụm chữ tượng hình. Các cụm hình dạng linh tinh và phác thảo có thể được sản xuất.

  • Trung bình đơn giản , hoặc phương pháp liên kết trung bình giữa các nhóm (WPGMA) là sửa đổi trước đó. Sự gần gũi giữa hai cụm là giá trị trung bình số học của tất cả các giá trị gần đúng giữa các đối tượng của một, một bên và các đối tượng của bên kia, ở phía bên kia; trong khi các cụm con trong đó hai cụm này được hợp nhất gần đây có ảnh hưởng cân bằng đến sự gần gũi đó - ngay cả khi các cụm con khác nhau về số lượng đối tượng.

  • Phương pháp liên kết trung bình trong nhóm (MNDIS). Sự gần gũi giữa hai cụm là giá trị trung bình số học của tất cả các giá trị gần đúng trong cụm chung của chúng. Phương pháp này là một thay thế cho UPGMA. Nó thường sẽ thua nó về mật độ cụm, nhưng đôi khi sẽ phát hiện ra các hình dạng cụm mà UPGMA sẽ không.

  • Phương pháp Centroid (UPGMC). Khoảng cách giữa hai cụm là khoảng cách giữa các tâm hình học của chúng: [bình phương] khoảng cách euclide giữa chúng. Ẩn dụ của cụm được xây dựng này là sự gần gũi của các nền tảng (chính trị). Giống như trong các đảng chính trị, các cụm như vậy có thể có phân số hoặc "phe phái", nhưng trừ khi các nhân vật trung tâm của họ cách xa nhau, liên minh là nhất quán. Các cụm có thể khác nhau bằng phác thảo.

  • Phương pháp trung bình , hoặc trung bình cân bằng (WPGMC) là sửa đổi trước đó. Khoảng cách giữa hai cụm là khoảng cách giữa các tâm hình học của chúng ([bình phương] khoảng cách euclide giữa chúng); trong khi các tâm được xác định sao cho các cụm con trong đó hai cụm này được hợp nhất gần đây có ảnh hưởng cân bằng đến tâm của nó - ngay cả khi các cụm con khác nhau về số lượng đối tượng.

  • SS12-(SS1+SS2)2. Theo trực giác, một loại là một đám mây dày đặc hơn và đồng tâm hơn về phía giữa của nó, trong khi các điểm cận biên rất ít và có thể được phân tán tương đối tự do.

Một số phương pháp ít được biết đến (xem Podany J. Các phương pháp phân cụm kết hợp mới // Vegetatio, 1989, 81: 61-77.) [Cũng được tôi triển khai dưới dạng macro SPSS được tìm thấy trên trang web của tôi]:

  • SS122

  • MS12-(n1MS1+n2MS2)/(n1+n2)= =[SS12-(SS1+SS2)]/(n1+n2)4

  • MS12= =SS12/(n1+n2)4

5 phương pháp đầu tiên cho phép mọi biện pháp gần (bất kỳ điểm tương đồng hoặc khoảng cách) và kết quả sẽ, một cách tự nhiên, phụ thuộc vào biện pháp được chọn.

6 phương pháp cuối cùng yêu cầu khoảng cách; và hoàn toàn chính xác sẽ chỉ sử dụng khoảng cách euclide bình phương với chúng, bởi vì các phương pháp này tính toán trọng tâm trong không gian euclide. Do đó, khoảng cách phải là euclid vì lợi ích của tính chính xác hình học (6 phương pháp này được gọi là phương pháp liên kết hình học với nhau ). Trong trường hợp xấu nhất, bạn có thể nhập số liệu kháckhoảng cách thừa nhận heuristic, phân tích ít nghiêm ngặt hơn. Bây giờ về "bình phương". Tính toán trọng tâm và độ lệch từ chúng là thuận tiện nhất về mặt toán học / lập trình để thực hiện trên khoảng cách bình phương, đó là lý do tại sao các gói HAC thường yêu cầu nhập liệu và được điều chỉnh để xử lý các bình phương. Tuy nhiên, có các triển khai tồn tại - hoàn toàn tương đương nhưng chậm hơn một chút - dựa trên khoảng cách đầu vào không cần thiết và yêu cầu chúng; xem ví dụ triển khai "Ward-2" cho phương pháp của Ward. Bạn nên tham khảo tài liệu về chương trình phân cụm của bạn để biết cái nào - bình phương hay không - khoảng cách mà nó mong đợi ở đầu vào một "phương pháp hình học" để thực hiện đúng.

Các phương thức MNDIS, MNSSQ và MNVAR yêu cầu trên các bước, ngoài việc chỉ cập nhật công thức Lance-Williams, để lưu trữ một thống kê trong cụm (phụ thuộc vào phương pháp).

Các phương pháp được sử dụng thường xuyên nhất trong các nghiên cứu trong đó các cụm được dự kiến ​​là các đám mây tròn nhiều hoặc ít, - là các phương pháp liên kết trung bình, phương pháp liên kết hoàn chỉnh và phương pháp của Ward.

Phương pháp của Ward là gần nhất, bởi tính chất và hiệu quả của nó, đối với phân cụm K-nghĩa; chúng có chung chức năng mục tiêu - tối thiểu hóa SS bên trong cụm "cuối cùng". Tất nhiên, K-nghĩa (được lặp đi lặp lại và nếu được cung cấp với trọng tâm ban đầu khá) thường là một công cụ giảm thiểu tốt hơn so với Ward. Tuy nhiên, Ward dường như chính xác hơn tôi một chút so với K-nghĩa trong việc phát hiện ra các cụm có kích thước vật lý không đồng đều (phương sai) hoặc các cụm được ném về không gian rất bất thường. Phương pháp MIVAR là lạ đối với tôi, tôi không thể tưởng tượng được khi nào nó có thể được đề xuất, nó không tạo ra các cụm đủ dày đặc.

Các phương pháp centroid, trung vị, tăng phương sai tối thiểu - đôi khi có thể tạo ra cái gọi là đảo ngược : một hiện tượng khi hai cụm được hợp nhất ở một bước nào đó xuất hiện gần nhau hơn so với các cặp cụm được sáp nhập trước đó. Đó là bởi vì các phương pháp này không thuộc về cái gọi là siêu ma trận. Tình huống này là bất tiện nhưng về mặt lý thuyết là OK.

Các phương thức liên kết đơn và centroid thuộc về cái gọi là hợp đồng không gian , hay là chained,. Điều đó có nghĩa là - nói một cách đại khái - rằng họ có xu hướng gắn các đối tượng lần lượt vào các cụm, và do đó chúng chứng minh sự tăng trưởng tương đối trơn tru của đường cong% của các đối tượng cụm. Ngược lại, các phương pháp liên kết hoàn chỉnh, Ward, tổng bình phương, tăng phương sai và phương sai thường nhận được một phần đáng kể các đối tượng được nhóm lại ngay cả ở những bước đầu, và sau đó tiến hành hợp nhất những đối tượng đó - do đó đường cong% của các đối tượng được nhóm Cung là dốc từ những bước đầu tiên. Những phương pháp này được gọi là giãn không gian . Các phương pháp khác rơi vào giữa.

Phiên bản linh hoạt . Bằng cách thêm tham số bổ sung vào công thức Lance-Willians, có thể làm cho một phương thức trở nên tự điều chỉnh cụ thể trên các bước của nó. Tham số mang lại hiệu chỉnh cho khoảng cách được tính toán giữa các cụm, phụ thuộc vào kích thước (mức độ giảm độ nén) của cụm. Ý nghĩa của tham số là nó làm cho phương pháp tích tụ nhiều không gian giãn nở hoặc co lại không gian hơn so với phương pháp tiêu chuẩn sẽ bị tiêu diệt. Cho đến nay, việc triển khai tính linh hoạt được biết đến nhiều nhất là phương pháp liên kết trung bình UPGMA và WPGMA (Belbin, L. và cộng sự. So sánh hai phương pháp tiếp cận với cụm linh hoạt Beta // Nghiên cứu hành vi đa biến, 1992, 27, 417 ,4433. ).

Dendrogram. Trên trục dendrogram "Y", thường được hiển thị là khoảng cách giữa các cụm hợp nhất - như được xác định bởi các phương pháp ở trên. Do đó, ví dụ, trong phương pháp centroid, khoảng cách bình phương thường được đo (cuối cùng, nó phụ thuộc vào gói và tùy chọn) - một số nghiên cứu không nhận thức được điều đó. Ngoài ra, theo truyền thống, với các phương pháp dựa trên sự gia tăng của độ không đặc biệt, chẳng hạn như Ward, thường được hiển thị trên dendrogram là giá trị tích lũy - sớm hơn vì lý do thuận tiện hơn so với lý thuyết. Do đó, (trong nhiều gói), hệ số được vẽ trong phương pháp của Ward thể hiện tổng thể, trên tất cả các cụm, tổng bình phương trong cụm được quan sát tại thời điểm của một bước nhất định.

Mọi người nên hạn chế đánh giá phương pháp liên kết nào là "tốt hơn" cho dữ liệu của mình bằng cách so sánh ngoại hình của dendrograms: không chỉ vì ngoại hình thay đổi khi bạn thay đổi hệ số mà bạn vẽ ở đó - như đã mô tả, - mà bởi vì giao diện sẽ khác nhau ngay cả trên dữ liệu không có cụm.

Để chọn phương pháp "đúng"

Không có tiêu chí duy nhất . Một số hướng dẫn về cách chọn phương pháp phân tích cụm (bao gồm phương pháp liên kết trong HAC như một trường hợp cụ thể) được nêu trong câu trả lời này và toàn bộ chủ đề trong đó.


1

Mối tương quan giữa ma trận khoảng cách và khoảng cách cophenetic là một số liệu để giúp đánh giá liên kết cụm nào sẽ chọn. Từ ?cophenetic:

Có thể lập luận rằng một dendrogram là một bản tóm tắt thích hợp của một số dữ liệu nếu mối tương quan giữa khoảng cách ban đầu và khoảng cách cophenetic là cao.

Việc sử dụng này cor(dist,cophenetic(hclust(dist)))như là một số liệu lựa chọn liên kết được tham chiếu trong pg 38 của vegan họa tiết này .

Xem mã ví dụ dưới đây:

# Data
d0=dist(USArrests)

# Hierarchical Agglomerative Clustering
h1=hclust(d0,method='average')
h2=hclust(d0,method='complete')
h3=hclust(d0,method='ward.D')
h4=hclust(d0,method='single')

# Cophenetic Distances, for each linkage
c1=cophenetic(h1)
c2=cophenetic(h2)
c3=cophenetic(h3)
c4=cophenetic(h4)

# Correlations
cor(d0,c1) # 0.7658983
cor(d0,c2) # 0.7636926
cor(d0,c3) # 0.7553367
cor(d0,c4) # 0.5702505

# Dendograms
par(mfrow=c(2,2))
plot(h1,main='Average Linkage')
plot(h2,main='Complete Linkage')
plot(h3,main='Ward Linkage')
plot(h4,main='Single Linkage')
par(mfrow=c(1,1))

Chúng tôi thấy rằng các mối tương quan cho averagecompletecực kỳ giống nhau, và các bản thảo của chúng có vẻ rất giống nhau. Sự tương quan cho wardtương tự averagecompletenhưng dendogram trông khá khác nhau. singleliên kết là làm việc riêng của nó. Đánh giá chuyên môn tốt nhất từ ​​một chuyên gia về vấn đề, hoặc ưu tiên đối với một liên kết nhất định trong lĩnh vực quan tâm có lẽ nên ghi đè đầu ra số từ đó cor().

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.