Tại sao bằng chứng năm 1938 của Wilks không hoạt động cho các mô hình sai chính tả?


23

Trong bài báo nổi tiếng năm 1938 (" Phân phối mẫu lớn về tỷ lệ khả năng kiểm tra các giả thuyết tổng hợp ", Biên niên sử Thống kê toán học, 9: 60-62), Samuel Wilks đã đưa ra phân phối tiệm cận của (tỷ lệ khả năng ghi nhật ký) đối với các giả thuyết lồng nhau, theo giả định rằng giả thuyết lớn hơn được xác định chính xác. Phân phối giới hạn là (chi bình phương) với bậc tự do, trong đó là số lượng tham số trong giả thuyết lớn hơn vàχ 2 h - m h m2×LLRχ2hmhmlà số lượng tham số miễn phí trong giả thuyết lồng nhau. Tuy nhiên, điều được cho là nổi tiếng là kết quả này không giữ được khi các giả thuyết bị sai lệch (nghĩa là khi giả thuyết lớn hơn không phải là phân phối thực sự cho dữ liệu được lấy mẫu).

Bất cứ ai có thể giải thích tại sao? Dường như với tôi rằng bằng chứng của Wilks vẫn nên hoạt động với những sửa đổi nhỏ. Nó dựa vào tính quy phạm tiệm cận của ước tính khả năng tối đa (MLE), vẫn còn giữ với các mô hình sai chính tả. Sự khác biệt duy nhất là ma trận hiệp phương sai của bình thường đa biến giới hạn: đối với các mô hình được chỉ định chính xác, chúng ta có thể xấp xỉ ma trận hiệp phương sai với ma trận thông tin Fisher nghịch đảo , với sai chính tả, chúng ta có thể sử dụng ước lượng sandwich của ma trận hiệp phương sai ( ). Cái sau giảm xuống nghịch đảo của ma trận thông tin Fisher khi mô hình được chỉ định chính xác (vì J - 1 K J - 1 J = K c - 1J1J1KJ1J=K). AFAICT, bằng chứng Wilks không quan tâm đến việc ước tính ma trận hiệp phương sai xuất phát từ đâu, miễn là chúng ta có một ma trận hiệp phương sai tiệm cận không thể đảo ngược của MLEs thông thường cho các MLE ( trong bài báo Wilks). c1


Khi mô hình lớn hơn là đúng nhưng sai mô hình phụ, sự phân bố tiệm cận không phải là nữa (trong mô hình tuyến tính với các lỗi Gaussian, ví dụ, chúng ta có được những điều thích chính xác noncentral-F phân phối để phân phối tiệm cận nên một cái gì đó giống như nc- χ 2 Tôi đang đoán). Vậy tại sao chúng ta lại mong đợi nó là χ 2 khi cả mô hình lớn hơn mô hình nhỏ hơn đều sai? Chính xác thì giả thuyết null ở đây bắt đầu bằng gì? χ2χ2χ2
anh chàng

Trong giả thuyết null được chỉ định chính xác, cả hai mô hình đều "đúng", nhưng mô hình lồng nhau có tham số cố định tại các giá trị thực. Trong giả thuyết null sai chính tả, cả hai mô hình đều "sai", nhưng mô hình lồng nhau có m tham số cố định tại các giá trị giả ngẫu nhiên. ("Giá trị giả" là giá trị tiệm cận của tham số giúp giảm thiểu khoảng cách Kullback - Liebler giữa mô hình sai chính tả và mô hình thực). Vì vậy, ví dụ của bạn về phi tập trung-F không liên quan, vì đó là phân phối khi giả thuyết null ở đây là sai. mm
ratsalad

Xin lỗi, tôi nên nói rằng giả thuyết lồng nhau có các tham số cố định ở các giá trị thực. hm
ratsalad

Theo hiểu biết của tôi, một mô hình null sai chính tả có thể bị sai chính tả theo nhiều cách. Ví dụ: phân phối sai của phần dư, dữ liệu có độ không đồng nhất, các hiệu ứng không phải là phụ gia, v.v. Tuy nhiên, tôi đồng ý rằng nếu ít nhất một trong các tham số "được kiểm tra" được cố định ở giá trị sai (ví dụ: giá trị giả) , đó là một ví dụ về mô hình null được chỉ định không chính xác. hm
RCorty

Câu trả lời:


19

RV Foutz và RC Srivastava đã kiểm tra vấn đề một cách chi tiết. Bài báo năm 1977 của họ "Hiệu suất của kiểm tra tỷ lệ khả năng khi mô hình không chính xác" chứa một tuyên bố về kết quả phân phối trong trường hợp sai chính tả cùng với một bản phác thảo rất ngắn gọn về bằng chứng, trong khi bài báo năm 1978 của họ "Phân phối tiệm cận của tỷ lệ khả năng khi mô hình không chính xác " chứa bằng chứng -nhưng cái sau được gõ theo kiểu nhà văn kiểu cũ (cả hai bài viết đều sử dụng cùng một ký hiệu, vì vậy bạn có thể kết hợp chúng trong khi đọc). Ngoài ra, đối với một số bước của bằng chứng, họ đề cập đến một bài báo của KP Roy "Một lưu ý về phân phối tỷ lệ khả năng không có triệu chứng" từ năm 1957 dường như không có sẵn trên mạng, thậm chí là có kiểm soát.

Trong trường hợp sai chính tả phân phối, nếu MLE vẫn nhất quán và bình thường không có triệu chứng ( không phải luôn luôn như vậy), thống kê LR theo một cách bất hợp lý một sự kết hợp tuyến tính của các bình phương độc lập (mỗi một mức độ tự do)

-2lnλdΣtôi= =1rctôiχtôi2

trong đó . Người ta có thể thấy "sự tương đồng": thay vì một hình vuông chi tiết với h - m bậc tự do, chúng ta có h - m chi bình phương mỗi hình vuông có một bậc tự do. Nhưng "sự tương tự" dừng lại ở đó, bởi vì sự kết hợp tuyến tính của chi bình phương không có mật độ dạng đóng. Mỗi bình phương tỷ lệ là một gamma, nhưng với một tham số c i khác nhau dẫn đến một tham số tỷ lệ khác nhau cho gamma - và tổng các gamma đó không phải là dạng đóng, mặc dù có thể tính được các giá trị của nó.r= =h-mh-mhmci

Đối với hằng, chúng tôi có c 1c 2. . . c r0 , và họ là những giá trị riêng của ma trận ... mà ma trận? Chà, bằng cách sử dụng ký hiệu tác giả, đặt Λ là Hessian của khả năng đăng nhập và C là sản phẩm bên ngoài của độ dốc của khả năng đăng nhập (theo thuật ngữ dự đoán). Vì vậy, V = Λ - 1 C ( Λ ' ) - 1 là ma trận hiệp phương sai sai-tiệm cận của MLE.cic1c2...cr0ΛCV=Λ1C(Λ)1

Sau đó thiết lập r × r khối thượng tầng đường chéo của V . Mr×rV

Cũng viết ở dạng khốiΛ

Λ=[Λr×rΛ2Λ2Λ3]

và bộ ( W là tiêu cực của Schur Complement của Λ ).W=Λr×r+Λ2Λ31Λ2WΛ

Thì là giá trị riêng của ma trận M W được đánh giá ở giá trị thực của các tham số.ciMW

ĐỊA CHỈ
Trả lời nhận xét hợp lệ của OP trong các bình luận (đôi khi, thực sự, các câu hỏi trở thành bàn đạp để chia sẻ một kết quả chung hơn và bản thân chúng có thể bị bỏ qua trong quá trình này), đây là cách tiến hành bằng chứng của Wilks: Wilks bắt đầu với khớp phân phối bình thường của MLE và tiến hành rút ra biểu thức chức năng của Tỷ lệ khả năng. Lên đến và bao gồm cả eq của mình. , bằng chứng có thể tiến lên ngay cả khi chúng ta giả sử rằng chúng ta có lỗi chính tả phân phối: như OP lưu ý, các điều khoản của ma trận hiệp phương sai sẽ khác nhau trong kịch bản sai chính tả, nhưng tất cả Wilks đều lấy đạo hàm và xác định điều khoản không có triệu chứng không đáng kể. Và vì vậy anh ta đến eq. [ 9 ][9][9]trong đó chúng ta thấy rằng thống kê tỷ lệ khả năng, nếu đặc điểm kỹ thuật là chính xác, chỉ là tổng của các biến ngẫu nhiên chuẩn bình thường bình phương, và do đó chúng được phân phối dưới dạng một bình phương với bậc tự do h - m : (ký hiệu chung )hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

Nhưng nếu chúng ta có thông số sai lệch, sau đó các điều khoản được sử dụng để mở rộng quy mô các MLE trung và phóng đại không còn các điều khoản đó sẽ làm cho các phương sai của mỗi phần tử bằng để thống nhất, và do đó thay đổi mỗi hạn vào một rv bình thường tiêu chuẩn và số tiền vào một chi-vuông. Và chúng thì không, bởi vì các thuật ngữ này liên quan đến cácgiá trị dự kiếncủa các dẫn xuất thứ hai của khả năng đăng nhập ... nhưng giá trị mong đợi chỉ có thể được thực hiện đối với phân phối thực sự, vì MLE là một chức năng của dữ liệu và dữ liệu tuân theo phân phối thực, trong khi các dẫn xuất thứ hai của khả năng đăng nhập được tính dựa trên giả định mật độ sai. n(θ^θ)

So under misspecification we have something like

2lnλ=i=1hm(nθ^iθiai)2
and the best we can do is to manipulate it into

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.


1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad

2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.