Nếu phân cụm k-nghĩa là một dạng mô hình hỗn hợp Gaussian, nó có thể được sử dụng khi dữ liệu không bình thường không?


21

Tôi đang đọc Giám mục về thuật toán EM cho GMM và mối quan hệ giữa GMM và k-mean.

Trong cuốn sách này có nói rằng k-mean là phiên bản cứng của GMM. Tôi tự hỏi điều đó có nghĩa là nếu dữ liệu tôi đang cố gắng phân cụm không phải là Gaussian, tôi không thể sử dụng phương tiện k (hoặc ít nhất là nó không phù hợp để sử dụng)? Ví dụ: nếu dữ liệu là hình ảnh của các chữ số viết tay, bao gồm 8 * 8 pixel thì mỗi pixel có giá trị 0 hoặc 1 (và giả sử chúng là độc lập do đó nó phải là hỗn hợp của Bernoulli)?

Tôi hơi bối rối về điều này và sẽ đánh giá cao bất kỳ suy nghĩ.


2
Nếu bạn đang hỏi liệu có hợp lệ để thực hiện phân cụm k-mean trên dữ liệu không bình thường hay không, câu trả lời là có nếu dữ liệu được giả sử là liên tục. Dữ liệu nhị phân không liên tục. Một số người thực hiện phương tiện k trên dữ liệu đó, điều này được cho phép theo phương pháp heuristur, nhưng về mặt lý thuyết không hợp lệ.
ttnphns

Không có mô hình xác suất cho phương tiện k nên không có giả định quy tắc để vô hiệu. (không có nghĩa là nó sẽ hoạt động tốt)
phỏng đoán

1
@conjectures Hmm ... Nhưng k-menas tương đương với GMM và GMM giả định bình thường.
eddie.xie

@ttnphns Cảm ơn câu trả lời của bạn! Vì vậy, tôi đoán nếu tôi sử dụng TF-IDF để chuyển văn bản thành điểm số và làm cho nó liên tục thì tôi có thể áp dụng và nó có hợp lệ không?
eddie.xie

Tôi chợt nhận ra rằng GMM là hỗn hợp (tổng của) một vài gaussian và nó có thể biểu thị bất kỳ phân phối nào được cung cấp đủ hỗn hợp. Do đó, ngay cả GMM và K-nghĩa là tương đương không có nghĩa là K-nghĩa là không thể sử dụng dữ liệu không bình thường vì GMM có thể biểu thị bất kỳ phân phối nào. Đúng không?
eddie.xie

Câu trả lời:


20

Trong các tình huống EM GMM điển hình, người ta sẽ tính đến phương sai và hiệp phương sai. Điều này không được thực hiện trong phương tiện k.

Nhưng thực tế, một trong những phương pháp phỏng đoán phổ biến cho phương tiện k (lưu ý: k-mean là một vấn đề, không phải là thuật toán) - thuật toán Lloyd - về cơ bản là thuật toán EM, sử dụng mô hình centroid (không có phương sai) và bài tập cứng.

Khi thực hiện phân cụm kiểu k-nghĩa (nghĩa là giảm thiểu phương sai), bạn

  • tình cờ giảm thiểu khoảng cách Euclide bình phương, bởi vì WCSS (tổng số bình phương trong cụm) đóng góp phương sai = khoảng cách euclide bình phương
  • tình cờ gán các đối tượng cho cụm gần nhất theo khoảng cách Euclide, bởi vì hàm sqrt là đơn điệu (lưu ý rằng giá trị trung bình không tối ưu hóa khoảng cách Euclide, nhưng hàm WCSS)
  • đại diện cho các cụm chỉ sử dụng một centroid
  • lấy các cụm hình tế bào Voronoi, tức là đa giác
  • nó hoạt động tốt nhất với các cụm hình cầu

K-means hàm mục tiêu có thể được chính thức hóa như thế này: nơi S = { S 1 ... S k } là tất cả các phân vùng có thể có của dữ liệu được đặt thành k phân vùng, D là thứ nguyên của tập dữ liệu và ví dụ x j d

argminSi=1kxjSid=1D(xjdμid)2
S={S1Sk}kDxjdlà tọa độ của thể hiện thứ trong chiều d .jd

Người ta thường nói rằng k-có nghĩa là giả định các cụm hình cầu. Người ta cũng thường thừa nhận rằng các cụm k-mean là các ô Voronoi, tức là không phải hình cầu. Cả hai đều đúng, và cả hai đều sai. Trước hết, các cụm không phải là các ô Voronoi hoàn chỉnh, mà chỉ có các đối tượng được biết đến trong đó. Không cần phải xem không gian chết ở giữa các cụm là một phần của một trong hai cụm, vì có một đối tượng ở đó sẽ ảnh hưởng đến kết quả thuật toán. Nhưng cũng không tốt hơn nếu gọi nó là "hình cầu", chỉ vì khoảng cách euclide là hình cầu. K-nghĩa là không quan tâm đến khoảng cách Euclide. Tất cả là nó, là một heuristic để giảm thiểu phương sai . Và đó thực sự là những gì bạn nên coi k-nghĩa là: tối thiểu hóa phương sai.


Hãy để tôi đề nghị bạn tinh chỉnh một chút biểu thức của bạn - để chính xác hơn. Chẳng hạn, cái gì là minimize squared euclidean distancehay minimize the variances? Phải có từ "tổng" hoặc "gộp" hoặc như vậy, bởi vì chúng tôi có hơn 2 cụm, phải không?
ttnphns

BTW, vì k-nghĩa là tối thiểu hóa tổng số trong cụm d ^ 2 chia cho số lượng đối tượng trong cụm tương ứng, nên quan điểm của bạn coincidentally minimize Euclidean distance, because the sqrt function is monotonelà chính xác, không chính xác.
ttnphns

Hàm mục tiêu thích hợp, mà bạn có thể chứng minh sự hội tụ, là WCSS, tổng bình phương trong cụm . Và thực tế, nó không giảm thiểu khoảng cách Euclide, nhưng đó là khoảng cách trung tâm gần nhất cũng là khoảng cách tối ưu WCSS.
Anony-Mousse

Từ ngữ của bạn vẫn không may đáng ngờ . Cụm từ minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance có nghĩa là gì? Bạn đang nói rằng "bình phương giữa các đối tượng trong các cụm được giảm thiểu vì WCSS độ lệch được giảm thiểu", hay chỉ là "WCSS của độ lệch được giảm thiểu, mà - độ lệch - khoảng cách euclide tự nhiên"? Hay smth khác?
ttnphns

1
Rõ ràng, k-mean là một lựa chọn tốt chỉ khi bạn muốn một mô hình centroid của dữ liệu của bạn. Nếu bạn muốn tối ưu hóa khoảng cách theo cặp, hãy sử dụng phân cụm theo cấp bậc.
Anony-Mousse

8

GMM sử dụng các ngọn đồi chồng chéo kéo dài đến vô tận (nhưng thực tế chỉ tính cho 3 sigma). Mỗi điểm được tất cả các điểm xác suất của ngọn đồi. Ngoài ra, các ngọn đồi có "hình quả trứng" [được thôi, chúng là các hình elip đối xứng ] và, sử dụng ma trận hiệp phương sai đầy đủ, có thể bị nghiêng .

K-means cứng chuyển nhượng một điểm để một đơn cụm, do đó điểm số của các trung tâm cụm khác được bỏ qua (đang ngầm reset bằng không / không quan tâm). Những ngọn đồi là bong bóng xà phòng hình cầu. Khi hai bong bóng xà phòng chạm nhau, ranh giới giữa chúng trở thành một mặt phẳng (siêu phẳng). Giống như khi bạn thổi một bọt nhiều bọt xà phòng, các bong bóng ở bên trong không bằng phẳng mà là hình hộp, do đó, ranh giới giữa nhiều quả cầu (siêu) thực sự tạo thành một phân vùng Voronoi của không gian. Trong 2D, điều này có xu hướng trông mơ hồ giống như đóng gói hình lục giác, nghĩ rằng một tổ ong (mặc dù tất nhiên các tế bào Voronoi không được đảm bảo là hình lục giác). Một ngọn đồi K-nghĩa là tròn và không bị nghiêng, do đó nó có sức mạnh đại diện ít hơn; nhưng nó nhanh hơn nhiều để tính toán, đặc biệt là trong các kích thước cao hơn.

Bởi vì K-mean sử dụng thước đo khoảng cách Euclide, nó giả định rằng kích thước tương đương và có trọng lượng bằng nhau. Vì vậy, nếu kích thước X có các đơn vị dặm mỗi giờ, thay đổi 0-80, và kích thước của Y có các đơn vị của bảng, thay đổi 0-400, và bạn phù hợp vòng tròn trong không gian XY này, sau đó một kích thước (và lây lan của nó) sẽ mạnh hơn các chiều khác và sẽ làm lu mờ kết quả. Đây là lý do tại sao nó thường được chuẩn hóa dữ liệu khi sử dụng phương tiện K.

Cả GMM và K-có nghĩa là mô hình hóa dữ liệu bằng cách khớp gần đúng nhất với những gì đã cho. GMM phù hợp với trứng nghiêng, và K-có nghĩa là phù hợp với các quả cầu chưa được lọc. Nhưng dữ liệu cơ bản có thể có hình dạng giống như bất cứ thứ gì, nó có thể là hình xoắn ốc hoặc bức tranh Picasso và mỗi thuật toán vẫn sẽ chạy và chụp ảnh tốt nhất. Việc mô hình kết quả trông giống như dữ liệu thực tế hay không phụ thuộc vào quá trình vật lý cơ bản tạo ra dữ liệu. (Ví dụ, các phép đo thời gian trễ là một phía; Gaussian có phù hợp không? Có thể.)

Rn

Do đó, hình ảnh nhị phân 8x8 của bạn sẽ được hiểu là một hypercube 64 chiều trong hyperquadrant đầu tiên. Các thuật toán sau đó sử dụng các phép tương tự hình học để tìm các cụm. Khoảng cách, với phương tiện K, hiển thị dưới dạng khoảng cách Euclide trong không gian 64 chiều. Đó là một cách để làm điều đó.


Lưu ý cả hai thuật toán cũng mặc nhiên cho rằng các trục không gian có mật độ dày như nhau tại tất cả các điểm, do đó, việc khớp dữ liệu theo cấp số mũ, logarit hoặc thay đổi hình sin thường có lợi từ một biến đổi trước để ánh xạ lại dữ liệu vào miền thay đổi theo tuyến tính.
DragonLord ngày
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.