Lựa chọn mô hình Mclust


11

Gói R mclustsử dụng BIC làm tiêu chí cho lựa chọn mô hình cụm. Theo hiểu biết của tôi, một mô hình có BIC thấp nhất nên được chọn so với các mô hình khác (nếu bạn chỉ quan tâm đến BIC). Tuy nhiên, khi tất cả các giá trị BIC đều âm, Mclusthàm mặc định cho mô hình có giá trị BIC cao nhất. Sự hiểu biết chung của tôi từ các thử nghiệm khác nhau là mclustxác định các mô hình "tốt nhất" là những mô hình có .max{BICi}

Tôi đang cố gắng để hiểu tại sao các tác giả đưa ra quyết định này. Nó được minh họa trong trang CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Ngoài ra, các tác giả của các mclustgói ghi chú về điều này trong bài viết Phương pháp phân loại dựa trên mô hình của họ : Sử dụng phần mềm mclust trong Hóa học trên trang 5.

Mô hình 'tốt nhất' được coi là mô hình có BIC cao nhất trong số các mô hình được trang bị.

Bất cứ ai cũng có thể chiếu sáng về vấn đề này? Nếu BIC thấp hơn luôn tốt hơn, tại sao các tác giả không chọn mô hình có BIC thấp nhất mà là mô hình có BIC tuyệt đối nhỏ nhất? Nếu có thể, cung cấp tài liệu tham khảo.

Câu trả lời:


10

Giải pháp tìm thấy:

Vì vậy, để đặt lại câu hỏi, tại sao Mclusthàm mặc định cho mô hình có giá trị BIC cao nhất là mô hình "tốt nhất"?

Câu hỏi tuyệt vời! Hãy để tôi cung cấp cho bạn một câu trả lời dài dòng cho điều này.

Giá trị TL; DR : BIC là một giá trị gần đúng với khả năng tích hợp (không tối đa) và bạn muốn mô hình có khả năng tích hợp lớn nhất (yếu tố Bayes) để bạn chọn mô hình có BIC lớn nhất.

Câu trả lời dài : Mục đích của việc sử dụng phân cụm dựa trên mô hình theo các cách tiếp cận phân cụm dựa trên heuristic như phân cụm k-mean và phân cấp (kết tụ) là để cung cấp một cách tiếp cận chính thức và trực quan hơn để so sánh và chọn một mô hình cụm phù hợp cho dữ liệu của bạn.

Mclust sử dụng các kỹ thuật phân cụm dựa trên các mô hình xác suất, mô hình hỗn hợp Gaussian. Sử dụng các mô hình xác suất cho phép phát triển các phương pháp dựa trên mô hình để so sánh các mô hình và kích thước cụm khác nhau. Xem * Phương pháp phân loại dựa trên mô hình: Sử dụng phần mềm mclust trong Hóa học * ( https://www.jstatsoft.org/article/view/v018i06 ) để biết thêm chi tiết.

Như đã đề cập ở trên, các tác giả nói rằng mô hình "tốt nhất" là mô hình có giá trị BIC lớn nhất. Dưới đây là một ví dụ khác từ Phần mềm phân cụm dựa trên mô hình nâng cao, ước tính mật độ và phân tích phân biệt đối xử: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Tiêu chí thông tin Baysian hoặc BIC (?) Là giá trị của loglik tối đa hóa với một hình phạt về số lượng tham số trong mô hình và cho phép so sánh các mô hình với các tham số hóa khác nhau và / hoặc số lượng cụm khác nhau. Nói chung, giá trị của BIC càng lớn, bằng chứng về mô hình và số lượng cụm càng mạnh (xem, ví dụ Fraley và Raftery 2002a).

Lựa chọn mô hình : Bây giờ có một mô hình xác suất được gắn vào các cụm, bạn có thể sử dụng các công cụ tinh vi hơn để so sánh nhiều mô hình cụm bằng cách sử dụng lựa chọn mô hình Bayes thông qua các yếu tố Bayes.

Trong bài báo của họ, có bao nhiêu cụm? Phương pháp phân cụm nào? Trả lời qua phân tích cụm dựa trên mô hình ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

Yếu tố Bayes là tỷ lệ cược sau cho một mô hình so với mô hình khác giả sử không được ưu tiên cho một ưu tiên. Banfield và Raftery [2] đã sử dụng xấp xỉ có nguồn gốc heuristur để nhân đôi số nhân tố Bayes, được gọi là 'AWE', để xác định số lượng cụm trong phân cụm theo phân cấp dựa trên khả năng phân loại. Khi EM được sử dụng để tìm khả năng hỗn hợp tối đa, một xấp xỉ đáng tin cậy hơn gấp đôi nhân tố Bayes được gọi là BIC (Schwarz [32]) được áp dụng:

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

Trong đó là khả năng (tích hợp) của dữ liệu cho mô hình M, là khả năng đăng nhập hỗn hợp maixmized cho mô hình và m_M là số lượng tham số độc lập được ước tính trong mô hình. Số lượng cụm không được coi là một tham số độc lập cho mục đích tính toán BIC. Nếu mỗi mô hình cũng không kém phần likeli , sau đó là tỷ lệ thuận với xác suất hậu nghiệm rằng các dữ liệu phù hợp với các mô hình . Theo đó, giá trị của BIC càng lớn, bằng chứng cho mô hình càng mạnh.l M ( x , θ ) một p r i o r i p ( x | M ) Mp(x|M)lM(x,θ^)a priorip(x|M)M

Vì vậy, tóm lại, BIC không nên được giảm thiểu. Người sử dụng phương pháp phân cụm dựa trên mô hình này nên tìm kiếm mô hình tối đa hóa BIC vì nó gần đúng với yếu tố Bayes với khả năng tích hợp tối đa.

Đó là tuyên bố cuối cùng cũng có một tài liệu tham khảo:

Banfield, JD và Raftery, AE (1993) Phân cụm Gaussian và không Gaussian dựa trên mô hình. Sinh trắc học, 49, 803 Led 821.

EDIT : Dựa trên một trao đổi email,

Là một lưu ý phụ, luôn kiểm tra cách xác định BIC. Đôi khi, ví dụ, trong hầu hết các bối cảnh hồi quy (theo truyền thống, một thống kê được giảm thiểu để ước tính các tham số, ví dụ: tổng bình phương còn lại, độ lệch, v.v.) BIC được tính là -2 * loglik + npar * log (n), tức là ngược lại những gì được sử dụng trong mclust. Rõ ràng, trong trường hợp đó, BIC nên được giảm thiểu.

Định nghĩa chung của BIC là ; mclust không bao gồm các thành phần tiêu cực.BIC=2×ln(L(θ|x))+k×ln(n)


1
Không chắc chắn phiên bản tương ứng email của Mclust này có liên quan đến. Phiên bản 4 của Mclust sử dụng thành phần tiêu cực của BIC và do đó nên được tối đa hóa. Hy vọng nó có thể hữu ích cho những người đang cố gắng tìm hiểu xem nên tối đa hóa hay tối thiểu hóa.
Rasika

Cảm ơn đã chỉ ra rằng, tôi sẽ cập nhật câu hỏi này để nó có ý nghĩa. Tôi cũng có thể xem xét tài liệu để xem liệu tại sao họ quyết định thực hiện thay đổi này sau nhiều năm
Jon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.