Tìm số gaussian trong hỗn hợp hữu hạn với định lý Wilks?


11

Giả sử tôi có một tập hợp các quan sát đơn biến, phân phối giống hệt nhau và hai giả thuyết về cách x được tạo ra:xx

: x được rút ra từ một phân phối Gaussian duy nhất với giá trị trung bình và phương sai không xác định.H0x

: x được rút ra từ hỗn hợp của hai Gaussian với giá trị trung bình, phương sai và hệ số trộn không xác định.HAx

Nếu tôi hiểu chính xác, đây là những mô hình lồng nhau vì mô hình mà đại diện có thể được mô tả theo H A nếu bạn buộc các tham số của hai Gaussian giống hệt nhau hoặc buộc hệ số trộn bằng 0 đối với một trong hai Gaussian . H0HA

Do đó, có vẻ như bạn sẽ có thể sử dụng thuật toán EM để ước tính các tham số của và sau đó sử dụng Định lý Wilks để xác định xem khả năng dữ liệu trong H A có lớn hơn đáng kể so với H 0 hay không . Có một bước nhảy nhỏ về niềm tin vào giả định rằng thuật toán EM sẽ hội tụ đến khả năng tối đa ở đây, nhưng đó là điều tôi sẵn sàng thực hiện.HAHAH0

Tôi đã thử điều này trong một mô phỏng monte carlo, giả sử rằng có 3 bậc tự do hơn H 0 (giá trị trung bình và phương sai của Gaussian thứ hai và tham số trộn). Khi tôi mô phỏng dữ liệu từ H 0 , tôi nhận được phân phối giá trị P về cơ bản không đồng nhất và được làm giàu cho các giá trị P nhỏ. (Nếu EM không hội tụ đến khả năng tối đa thực sự, thì điều ngược lại hoàn toàn sẽ xảy ra.) Có gì sai khi tôi áp dụng định lý Wilks tạo ra sự thiên vị này?HAH0H0

Câu trả lời:


8

μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

Giả thuyết null là một tập hợp con phức tạp của không gian tham số đầy đủ và dưới null, các tham số thậm chí không thể nhận dạng được. Các giả định thông thường cần có để phá vỡ định lý của Wilk, đáng chú ý nhất là không thể xây dựng một bản mở rộng Taylor thích hợp của khả năng đăng nhập.

Tôi không có bất kỳ kinh nghiệm cá nhân nào về vấn đề cụ thể này, nhưng tôi biết các trường hợp khác khi các tham số "biến mất" dưới giá trị null, dường như cũng là trường hợp ở đây, và trong những trường hợp này, kết luận về định lý của Wilk cũng bị phá vỡ . Một tìm kiếm nhanh đã đưa ra, trong số những thứ khác, bài báo này có vẻ phù hợp và nơi bạn có thể tìm thấy các tài liệu tham khảo thêm về việc sử dụng thử nghiệm tỷ lệ khả năng liên quan đến các mô hình hỗn hợp.


Cảm ơn. Tôi nghĩ một cái gì đó như thế này có thể là vấn đề, nhưng tôi không chắc chắn. Tôi đã có một chút bối rối về những điểm tốt hơn của những gì tạo thành một mô hình lồng nhau cho mục đích của Định lý Wilks. Điểm tốt về nhận dạng dưới null.
dsimcha

4

ρnằm trên ranh giới của không gian tham số và (b) tham số không thể xác định được dưới giá trị null. Điều này không có nghĩa là sự phân phối tỷ lệ khả năng tổng quát là không rõ! Nếu tất cả 5 tham số trong thiết lập của bạn là không xác định và quan trọng hơn - không bị ràng buộc - thì phân phối của thống kê LR không hội tụ. Nếu tất cả các tham số không xác định được giới hạn, thì thống kê LR là đơn điệu trong tối cao của một quá trình Gaussian bị cắt ngắn. Hiệp phương sai không dễ tính toán trong trường hợp chung (5 tham số) và ngay cả khi bạn có nó - phân phối tối cao của một quá trình như vậy không dễ dàng xấp xỉ. Đối với một số kết quả thực tế về hỗn hợp hai thành phần xem tại đây. Thật thú vị, bài báo cho thấy rằng trong các thiết lập khá đơn giản, thống kê LR thực sự kém mạnh mẽ hơn so với một số thống kê đơn giản hơn. Đối với bài báo chuyên đề về việc phân phối tiệm cận trong các vấn đề như vậy xem tại đây . Đối với tất cả các mục đích thực tế, bạn có thể điều chỉnh hỗn hợp bằng EM, và sau đó Bootstrap phân phối thống kê LR. Điều này có thể mất một thời gian vì EM được biết là chậm và bạn cần nhiều bản sao để thu được hiệu ứng của cỡ mẫu. Xem ở đây để biết chi tiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.