Tại sao sử dụng mô hình hỗn hợp Gaussian?


9

Tôi đang tìm hiểu về các mô hình hỗn hợp Gaussian (GMM) nhưng tôi bối rối không biết tại sao mọi người nên sử dụng thuật toán này.

  1. Thuật toán này tốt hơn thuật toán phân cụm tiêu chuẩn khác như K-means khi nói đến cụm? CácK có nghĩa là phân vùng thuật toán dữ liệu vào Kcác cụm có thành viên tập hợp rõ ràng, trong khi mô hình hỗn hợp Gaussian không tạo thành viên tập hợp rõ ràng cho từng điểm dữ liệu. Số liệu để nói rằng một điểm dữ liệu gần với điểm khác với GMM là gì?

  2. Làm cách nào tôi có thể sử dụng phân phối xác suất cuối cùng mà GMM tạo ra? Giả sử tôi có được phân phối xác suất cuối cùng của mìnhf(x|w) Ở đâu wlà trọng lượng, vậy là gì? Tôi đã nhận được phân phối xác suất phù hợp với dữ liệu của mìnhx. Tôi có thể làm gì với nó?

  3. Để theo dõi với điểm trước của tôi, cho K có nghĩa là, cuối cùng chúng ta có được một bộ K cụm, mà chúng ta có thể biểu thị là tập hợp {S1,,SK}, đó là Knhiều thứ. Nhưng đối với GMM, tất cả những gì tôi có được là một bản phân phốif(x|w)=i=1NwiN(x|μi,Σi) đó là 1Điều. Làm thế nào điều này có thể được sử dụng để phân cụm mọi thứ vàoK cụm?


1
GMM có ý nghĩa khác, không chỉ trong kinh tế lượng. Viết tắt từ tiêu đề để giảm sự phân tâm.
Nick Cox

Câu trả lời:


11

Tôi sẽ mượn ký hiệu từ (1), mô tả GMM khá độc đáo theo ý tôi. Giả sử chúng ta có một tính năngXRd. Mô hình phân phốiX chúng ta có thể phù hợp với một GMM của mẫu

f(x)=m=1Mαmϕ(x;μm;Σm)
với M số lượng các thành phần trong hỗn hợp, αm trọng lượng hỗn hợp của m-thành phần và ϕ(x;μm;Σm) là hàm mật độ Gaussian với trung bình μm và ma trận hiệp phương sai Σm. Sử dụng thuật toán EM ( kết nối của nó với K-Means được giải thích trong câu trả lời này ) chúng ta có thể ước tính các tham số mô hình, mà tôi sẽ biểu thị bằng một chiếc mũ ở đây (α^m,μ^m,Σ^m). Vì vậy, GMM của chúng tôi hiện đã được trang bị choXHãy sử dụng nó!

Điều này giải quyết câu hỏi của bạn 1 và 3

Số liệu để nói rằng một điểm dữ liệu gần với điểm khác với GMM là gì?
[...]
Làm thế nào điều này có thể được sử dụng để phân cụm mọi thứ vào cụm K?

Bây giờ chúng ta có một mô hình xác suất của phân phối, chúng ta có thể tính toán xác suất sau của một trường hợp cụ thể xi thuộc thành phần m, đôi khi được gọi là 'trách nhiệm' của thành phầnm cho (sản xuất) xi (2), ký hiệu là r^im

r^im=α^mϕ(xi;μm;Σm)k=1Mα^kϕ(xi;μk;Σk)

điều này cho chúng ta xác suất của xithuộc các thành phần khác nhau. Đó chính xác là cách GMM có thể được sử dụng để phân cụm dữ liệu của bạn.

K-Means có thể gặp phải vấn đề khi lựa chọn K không phù hợp với dữ liệu hoặc hình dạng của các quần thể khác nhau. Tài liệu scikit-learn chứa một minh họa thú vị về những trường hợp như vậy

nhập mô tả hình ảnh ở đây

Sự lựa chọn hình dạng của ma trận hiệp phương sai của GMM ảnh hưởng đến hình dạng mà các thành phần có thể đảm nhận, ở đây một lần nữa tài liệu tìm hiểu scikit cung cấp một minh họa

nhập mô tả hình ảnh ở đây

Mặc dù số lượng cụm / thành phần được lựa chọn kém cũng có thể ảnh hưởng đến GMM được trang bị EM, nhưng GMM được trang bị theo kiểu bayes có thể có khả năng phục hồi phần nào đối với tác động của điều này, cho phép trọng lượng hỗn hợp của một số thành phần bằng (gần). Thêm về điều này có thể được tìm thấy ở đây .

Người giới thiệu

(1) Friedman, Jerome, Trevor Hastie và Robert Tibshirani. Các yếu tố của học thống kê. Tập 1. Số 10. New York: Chuỗi Springer trong thống kê, 2001.
(2) Giám mục, Christopher M. Nhận dạng mẫu và học máy. mùa xuân năm 2006.


7
  1. Thuật toán này tốt hơn thuật toán phân cụm tiêu chuẩn khác như K-means khi nói đến cụm?
  • k-nghĩa là rất phù hợp cho các cụm hình cầu có kích thước bằng nhau. Nó có thể thất bại nếu các điều kiện này bị vi phạm (mặc dù nó vẫn có thể hoạt động nếu các cụm được phân tách rất rộng). GMM có thể phù hợp với các cụm với nhiều hình dạng và kích cỡ hơn. Nhưng, cả hai thuật toán đều không phù hợp với dữ liệu với các cụm cong / không lồi.

  • GMM cung cấp một sự phân công xác suất của các điểm cho các cụm. Điều này cho phép chúng tôi định lượng sự không chắc chắn. Ví dụ: nếu một điểm ở gần 'đường biên' giữa hai cụm, thì tốt hơn nên biết rằng nó có xác suất thành viên gần bằng nhau cho các cụm này, thay vì mù quáng gán nó cho cụm gần nhất.

  • Công thức xác suất của GMM cho phép chúng tôi kết hợp kiến ​​thức trước đó, sử dụng các phương pháp Bayes. Ví dụ: chúng ta có thể đã biết điều gì đó về hình dạng hoặc vị trí của cụm hoặc bao nhiêu điểm chúng chứa.

  • Công thức xác suất đưa ra cách xử lý dữ liệu bị thiếu (ví dụ: sử dụng thuật toán tối đa hóa kỳ vọng thường được sử dụng để phù hợp với GMM). Chúng ta vẫn có thể phân cụm một điểm dữ liệu, ngay cả khi chúng ta chưa quan sát giá trị của nó dọc theo một số chiều. Và, chúng ta có thể suy ra những giá trị còn thiếu đó có thể là gì.

  1. ...Các K có nghĩa là phân vùng thuật toán dữ liệu vào Kcác cụm có thành viên tập hợp rõ ràng, trong khi mô hình hỗn hợp Gaussian không tạo thành viên tập hợp rõ ràng cho từng điểm dữ liệu. Số liệu để nói rằng một điểm dữ liệu gần với điểm khác với GMM là gì?

GMM đưa ra một xác suất rằng mỗi điểm thuộc về từng cụm (xem bên dưới). Những xác suất này có thể được chuyển đổi thành 'bài tập cứng' bằng cách sử dụng quy tắc quyết định. Ví dụ, lựa chọn đơn giản nhất là gán từng điểm cho cụm có khả năng nhất (nghĩa là điểm có xác suất thành viên cao nhất).

  1. Làm cách nào tôi có thể sử dụng phân phối xác suất cuối cùng mà GMM tạo ra? Giả sử tôi có được phân phối xác suất cuối cùng của mìnhf(x|w) Ở đâu wlà trọng lượng, vậy là gì? Tôi đã nhận được phân phối xác suất phù hợp với dữ liệu của mìnhx. Tôi có thể làm gì với nó?

Đây chỉ là một vài khả năng. Bạn có thể:

  • Thực hiện phân cụm (bao gồm cả bài tập cứng, như trên).

  • Impute thiếu giá trị (như trên).

  • Phát hiện dị thường (tức là các điểm có mật độ xác suất thấp).

  • Tìm hiểu một cái gì đó về cấu trúc của dữ liệu.

  • Mẫu từ mô hình để tạo các điểm dữ liệu tổng hợp mới.

  1. Để theo dõi với điểm trước của tôi, cho K có nghĩa là, cuối cùng chúng ta có được một bộ K cụm, mà chúng ta có thể biểu thị là tập hợp {S1,,SK}, đó là Knhiều thứ. Nhưng đối với GMM, tất cả những gì tôi có được là một bản phân phốif(x|w)=i=1NwiN(x|μi,Σi) đó là 1Điều. Làm thế nào điều này có thể được sử dụng để phân cụm mọi thứ vàoK cụm?

Biểu thức bạn đã viết là phân phối cho dữ liệu được quan sát. Tuy nhiên, một GMM có thể được coi là một mô hình biến tiềm ẩn. Mỗi điểm dữ liệu được liên kết với một biến tiềm ẩn cho biết nó thuộc cụm nào. Khi lắp GMM, chúng ta học phân phối trên các biến tiềm ẩn này. Điều này đưa ra một xác suất rằng mỗi điểm dữ liệu là một thành viên của mỗi cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.