Giả sử tôi có một tập hợp các quan sát đơn biến, phân phối giống hệt nhau và hai giả thuyết về cách x được tạo ra:
: x được rút ra từ một phân phối Gaussian duy nhất với giá trị trung bình và phương sai không xác định.
: x được rút ra từ hỗn hợp của hai Gaussian với giá trị trung bình, phương sai và hệ số trộn không xác định.
Nếu tôi hiểu chính xác, đây là những mô hình lồng nhau vì mô hình mà đại diện có thể được mô tả theo H A nếu bạn buộc các tham số của hai Gaussian giống hệt nhau hoặc buộc hệ số trộn bằng 0 đối với một trong hai Gaussian .
Do đó, có vẻ như bạn sẽ có thể sử dụng thuật toán EM để ước tính các tham số của và sau đó sử dụng Định lý Wilks để xác định xem khả năng dữ liệu trong H A có lớn hơn đáng kể so với H 0 hay không . Có một bước nhảy nhỏ về niềm tin vào giả định rằng thuật toán EM sẽ hội tụ đến khả năng tối đa ở đây, nhưng đó là điều tôi sẵn sàng thực hiện.
Tôi đã thử điều này trong một mô phỏng monte carlo, giả sử rằng có 3 bậc tự do hơn H 0 (giá trị trung bình và phương sai của Gaussian thứ hai và tham số trộn). Khi tôi mô phỏng dữ liệu từ H 0 , tôi nhận được phân phối giá trị P về cơ bản không đồng nhất và được làm giàu cho các giá trị P nhỏ. (Nếu EM không hội tụ đến khả năng tối đa thực sự, thì điều ngược lại hoàn toàn sẽ xảy ra.) Có gì sai khi tôi áp dụng định lý Wilks tạo ra sự thiên vị này?