Giải pháp tìm thấy:
Vì vậy, để đặt lại câu hỏi, tại sao Mclust
hàm mặc định cho mô hình có giá trị BIC cao nhất là mô hình "tốt nhất"?
Câu hỏi tuyệt vời! Hãy để tôi cung cấp cho bạn một câu trả lời dài dòng cho điều này.
Giá trị TL; DR : BIC là một giá trị gần đúng với khả năng tích hợp (không tối đa) và bạn muốn mô hình có khả năng tích hợp lớn nhất (yếu tố Bayes) để bạn chọn mô hình có BIC lớn nhất.
Câu trả lời dài : Mục đích của việc sử dụng phân cụm dựa trên mô hình theo các cách tiếp cận phân cụm dựa trên heuristic như phân cụm k-mean và phân cấp (kết tụ) là để cung cấp một cách tiếp cận chính thức và trực quan hơn để so sánh và chọn một mô hình cụm phù hợp cho dữ liệu của bạn.
Mclust sử dụng các kỹ thuật phân cụm dựa trên các mô hình xác suất, mô hình hỗn hợp Gaussian. Sử dụng các mô hình xác suất cho phép phát triển các phương pháp dựa trên mô hình để so sánh các mô hình và kích thước cụm khác nhau. Xem * Phương pháp phân loại dựa trên mô hình: Sử dụng phần mềm mclust trong Hóa học * ( https://www.jstatsoft.org/article/view/v018i06 ) để biết thêm chi tiết.
Như đã đề cập ở trên, các tác giả nói rằng mô hình "tốt nhất" là mô hình có giá trị BIC lớn nhất. Dưới đây là một ví dụ khác từ Phần mềm phân cụm dựa trên mô hình nâng cao, ước tính mật độ và phân tích phân biệt đối xử: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Tiêu chí thông tin Baysian hoặc BIC (?) Là giá trị của loglik tối đa hóa với một hình phạt về số lượng tham số trong mô hình và cho phép so sánh các mô hình với các tham số hóa khác nhau và / hoặc số lượng cụm khác nhau. Nói chung, giá trị của BIC càng lớn, bằng chứng về mô hình và số lượng cụm càng mạnh (xem, ví dụ Fraley và Raftery 2002a).
Lựa chọn mô hình : Bây giờ có một mô hình xác suất được gắn vào các cụm, bạn có thể sử dụng các công cụ tinh vi hơn để so sánh nhiều mô hình cụm bằng cách sử dụng lựa chọn mô hình Bayes thông qua các yếu tố Bayes.
Trong bài báo của họ, có bao nhiêu cụm? Phương pháp phân cụm nào? Trả lời qua phân tích cụm dựa trên mô hình ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
Yếu tố Bayes là tỷ lệ cược sau cho một mô hình so với mô hình khác giả sử không được ưu tiên cho một ưu tiên. Banfield và Raftery [2] đã sử dụng xấp xỉ có nguồn gốc heuristur để nhân đôi số nhân tố Bayes, được gọi là 'AWE', để xác định số lượng cụm trong phân cụm theo phân cấp dựa trên khả năng phân loại. Khi EM được sử dụng để tìm khả năng hỗn hợp tối đa, một xấp xỉ đáng tin cậy hơn gấp đôi nhân tố Bayes được gọi là BIC (Schwarz [32]) được áp dụng:
2 khúc gỗ( p ( x | M) ) + c o n s t a n t ≈ 2 lM( X , θ^) - mml o g( N ) ≡ B tôiC
Trong đó là khả năng (tích hợp) của dữ liệu cho mô hình M, là khả năng đăng nhập hỗn hợp maixmized cho mô hình và m_M là số lượng tham số độc lập được ước tính trong mô hình. Số lượng cụm không được coi là một tham số độc lập cho mục đích tính toán BIC. Nếu mỗi mô hình cũng không kém phần likeli , sau đó là tỷ lệ thuận với xác suất hậu nghiệm rằng các dữ liệu phù hợp với các mô hình . Theo đó, giá trị của BIC càng lớn, bằng chứng cho mô hình càng mạnh.l M ( x , θ ) một p r i o r i p ( x | M ) Mp ( x | M)tôiM( X , θ^)a p r i o r i p ( x | M)M
Vì vậy, tóm lại, BIC không nên được giảm thiểu. Người sử dụng phương pháp phân cụm dựa trên mô hình này nên tìm kiếm mô hình tối đa hóa BIC vì nó gần đúng với yếu tố Bayes với khả năng tích hợp tối đa.
Đó là tuyên bố cuối cùng cũng có một tài liệu tham khảo:
Banfield, JD và Raftery, AE (1993) Phân cụm Gaussian và không Gaussian dựa trên mô hình. Sinh trắc học, 49, 803 Led 821.
EDIT : Dựa trên một trao đổi email,
Là một lưu ý phụ, luôn kiểm tra cách xác định BIC. Đôi khi, ví dụ, trong hầu hết các bối cảnh hồi quy (theo truyền thống, một thống kê được giảm thiểu để ước tính các tham số, ví dụ: tổng bình phương còn lại, độ lệch, v.v.) BIC được tính là -2 * loglik + npar * log (n), tức là ngược lại những gì được sử dụng trong mclust. Rõ ràng, trong trường hợp đó, BIC nên được giảm thiểu.
Định nghĩa chung của BIC là
; mclust không bao gồm các thành phần tiêu cực.B tôiC= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )