Số lượng thành phần tối ưu trong hỗn hợp Gaussian


10

Vì vậy, việc có được một "ý tưởng" về số lượng cụm tối ưu trong phương tiện k cũng được ghi lại. Tôi đã tìm thấy một bài viết về việc làm điều này trong các hỗn hợp gaussian, nhưng không chắc chắn rằng tôi bị thuyết phục bởi nó, không hiểu nó rất rõ. Có một cách ... nhẹ nhàng hơn để làm điều này?


4
Bạn có thể trích dẫn bài báo, hoặc ít nhất là phác thảo phương pháp mà nó đề xuất? Thật khó để đưa ra một cách "nhẹ nhàng" hơn để làm điều này nếu chúng ta không biết đường cơ sở :)
jbowman

1
Geoff McLachlan và những người khác đã viết sách về phân phối hỗn hợp. Tôi chắc chắn những điều này bao gồm các cách tiếp cận để xác định số lượng thành phần trong hỗn hợp. Bạn có thể có thể nhìn vào đó. Tôi đồng ý với jbowman rằng việc giải tỏa sự nhầm lẫn của bạn sẽ đạt được tốt nhất nếu bạn cho chúng tôi biết bạn đang bối rối về điều gì.
Michael R. Chernick

Số lượng hỗn hợp Gaussian tối ưu ước tính dựa trên các phương tiện k tăng dần để nhận dạng loa .... Là tiêu đề của nó, nó miễn phí để tải về. Về cơ bản, nó tăng số cụm lên 1 cho đến khi bạn thấy hai cụm trở nên phụ thuộc lẫn nhau, đại loại như thế. Cảm ơn bạn!
JEquihua

Tại sao không chỉ chọn số lượng các thành phần tối đa hóa ước tính xác thực chéo của khả năng? Nó là tính toán đắt tiền, nhưng xác thực chéo rất khó để đánh bại trong hầu hết các trường hợp để lựa chọn mô hình, trừ khi có một số lượng lớn các tham số để điều chỉnh.
Dikran Marsupial

Bạn có thể giải thích một chút về ước tính xác thực chéo của khả năng là gì không? Tôi không biết về khái niệm này. Cảm ơn bạn.
JEquihua

Câu trả lời:


5

Chỉ cần một số phần mở rộng cho nhận xét của Dikran Marsupial (xác thực chéo). Ý tưởng chính là chia dữ liệu của bạn thành các tập huấn luyện và xác nhận theo một cách nào đó, thử số lượng thành phần khác nhau và chọn thứ tốt nhất dựa trên các giá trị khả năng đào tạo và xác nhận tương ứng.

Khả năng cho GMM chỉ là theo định nghĩa, trong đó là số lượng thành phần (cụm) và , , là các tham số mô hình. Bằng cách thay đổi giá trị của bạn có thể vẽ khả năng GMM cho các bộ đào tạo và xác nhận như sau.K π μ Σ Kp(x|π,μ,Σ)=KπkN(x|μk,Σk)KπμΣK

nhập mô tả hình ảnh ở đây

Trong ví dụ này, rõ ràng là số lượng thành phần tối ưu là khoảng 20. Có video hay về điều này trên Coursera, và đó là nơi tôi có được bức ảnh trên.


Một phương pháp thường được sử dụng là tiêu chí thông tin Bayes (BIC) : trong đó là khả năng, K số lượng tham số và số điểm dữ liệu. Nó có thể được hiểu là thêm một hình phạt cho số lượng tham số cho khả năng đăng nhập.L n

BIC=2log(L)+Klog(n)
Ln
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.