Khoảng cách giữa hai hỗn hợp Gaussian để đánh giá các giải pháp cụm


11

Tôi đang chạy một mô phỏng nhanh để so sánh các phương pháp phân cụm khác nhau và hiện đang gặp khó khăn khi cố gắng đánh giá các giải pháp cụm.

Tôi biết các số liệu xác nhận khác nhau (nhiều số được tìm thấy trong cluster.stats () trong R), nhưng tôi giả sử chúng được sử dụng tốt nhất nếu số cụm ước tính thực sự bằng với số cụm thực sự. Tôi muốn duy trì khả năng đo lường một giải pháp phân cụm hoạt động tốt như thế nào khi nó không chỉ định đúng số cụm trong mô phỏng ban đầu (nghĩa là dữ liệu mô hình giải pháp ba cụm được mô phỏng như thế nào để có 4 cụm giải pháp). Chỉ cần thông tin của bạn, các cụm được mô phỏng để sở hữu ma trận hiệp phương sai giống hệt nhau.

Tôi nghĩ rằng sự phân kỳ KL giữa hai hỗn hợp Gaussian sẽ hữu ích để thực hiện, nhưng không có giải pháp dạng đóng nào tồn tại ( Hershey và Olson (2007) ) và thực hiện mô phỏng Monte Carlo bắt đầu tốn kém về mặt tính toán.

Có giải pháp nào khác có thể dễ thực hiện (ngay cả khi chỉ là xấp xỉ) không?


Khoảng cách L2 giữa hai hỗn hợp Gaussian có sẵn ở dạng kín. Sử dụng này và bạn sẽ được thiết lập tất cả.

Tôi không biết làm thế nào bạn sẽ làm điều đó, nhưng nó không có vẻ là một ý tưởng tốt cho tôi. Lấy một hỗn hợp, hoán vị các thành phần (không thay đổi thành p (x)) và khoảng cách L2 có thể là bất cứ điều gì. Ngoài ra, khoảng cách L2 không phải là một ý tưởng tốt về ma trận hiệp phương sai.
bayerj

Xác suất dự đoán sau của một tập dữ liệu thử nghiệm được tổ chức. Tôi nghi ngờ bạn cần linh mục trên k mặc dù.
phỏng đoán

Liên kết đầu tiên bị hỏng
ttnphns

Câu trả lời:


6

Giả sử chúng ta có hai hỗn hợp Gaussian trong : Gọi mật độ của chúng lần lượt là và và biểu thị mật độ của các thành phần , của , .Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

Các khoảng cách sau đây có sẵn ở dạng đóng:

  • L2Khoảng cách , như được đề xuất trong một nhận xét của người dùng39665. Đây là: Lưu ý rằng, như đã thấy trong phần 8.1.8 của sách nấu ăn ma trận : để điều này có thể được đánh giá dễ dàng trong thời gian .

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • Sự khác biệt trung bình tối đa (MMD) với hạt nhân RBF Gaussian. Đây là một khoảng cách tuyệt vời, chưa được biết đến nhiều trong cộng đồng thống kê, cần một chút toán học để xác định.

    Để xác định không gian Hilbert là không gian tái tạo hạt nhân Hilbert tương ứng với : .

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    Xác định hạt nhân bản đồ trung bình

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMD sau đó là

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    Đối với hỗn hợp và của chúng tôi , lưu ý rằng và tương tự cho và .PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    Hóa ra, sử dụng các thủ thuật tương tự như đối với , rằng là L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    Khi , rõ ràng điều này hội tụ đến bội số của khoảng cách . Tuy nhiên, thông thường bạn muốn sử dụng một , theo thang đo của biến thể dữ liệu.σ0L2σ

    Các dạng đóng cũng có sẵn cho các hạt nhân đa thức trong MMD; xemk

    Muandet, Fukumizu, Dinuzzo và Schölkopf (2012). Học hỏi từ các bản phân phối thông qua các máy đo hỗ trợ. Trong những tiến bộ trong hệ thống xử lý thông tin thần kinh ( phiên bản chính thức ). arXiv: 1202.6504 .

    Đối với nhiều thuộc tính tốt đẹp của khoảng cách này, xem

    Sriperumbudur, Gretton, Fukumizu, Schölkopf và Lanckriet (2010). Hilbert nhúng không gian và số liệu về các biện pháp xác suất. Tạp chí nghiên cứu máy học, 11, 1517 Từ1561 . arXiv: 0907.5309 .

  • Phân kỳ bậc hai Jensen-Rényi. Entropy Rényi- được định nghĩa là Giới hạn của nó là là entropy Shannon. Phân kỳ Jensen-Rényi là trong đó biểu thị một hỗn hợp bằng nhau giữa và . Hóa ra, khi và khi và là hỗn hợp Gaussian (như ở đây), bạn có thể tính một dạng đóng cho . Điều này đã được thực hiện bởiα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer và Rangarajan (2009). Phân kỳ Jensen-Renyi dạng đóng cho hỗn hợp Gaussian và các ứng dụng để đăng ký hình dạng nhóm-khôn ngoan. Med Image Comput Comput Hỗ trợ Interv., 12 (1), 648 Tắt655. ( phiên bản xuất bản miễn phí )


0

Nếu các cụm của bạn thực sự không phải là hỗn hợp Gaussian nhưng có hình dạng tùy ý, kết quả của bạn thực sự có thể tốt hơn nhiều khi bạn tạo ra nhiều cụm hơn, sau đó hợp nhất một số lần sau đó.

Trong nhiều trường hợp, người ta chỉ chọn k là cao tùy ý, ví dụ 1000 cho một tập dữ liệu lớn; đặc biệt là khi bạn không thực sự quan tâm đến các mô hình, nhưng chỉ muốn giảm độ phức tạp của tập dữ liệu thông qua lượng tử hóa vectơ.


Tôi đã mô phỏng các cụm được rút ra từ hỗn hợp Gaussian, vì vậy tôi nghĩ rằng giả định của tôi là hợp lệ. Mục tiêu ở đây không phải là giảm độ phức tạp hay đưa ra tiêu chí quyết định cho việc chọn k, mà là so sánh mức độ k cụm mô hình dữ liệu khi k thực sự không chính xác. Một số lựa chọn không chính xác có thể mô hình hóa dữ liệu tốt hơn các dữ liệu khác và tôi đang cố gắng định lượng mức độ sai lệch này bằng một số tính toán (như phân kỳ KL, nhưng dễ thực hiện hơn đối với các hỗn hợp Gaussian).
dmartin

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.