Xác định ma trận thông tin Fisher cho một mô hình quá tham số


10

Hãy xem xét một biến ngẫu nhiên Bernoulli với tham số (xác suất thành công). Hàm khả năng và thông tin Fisher ( ma trận ) là:θ 1 × 1X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Bây giờ hãy xem xét một phiên bản "quá tham số" với hai tham số: xác suất thành công θ1 và xác suất thất bại θ0 . (Lưu ý rằng θ1+θ0=1 và ràng buộc này ngụ ý rằng một trong các tham số là dự phòng.) Trong trường hợp này, hàm khả năng và ma trận thông tin Fisher (FIM) là:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Lưu ý rằng các yếu tố quyết định của hai FIM này là giống hệt nhau. Hơn nữa, thuộc tính này mở rộng cho trường hợp tổng quát hơn của các mô hình phân loại (tức là nhiều hơn hai trạng thái). Nó cũng xuất hiện để mở rộng cho các mô hình log-linear với các tập hợp con khác nhau của các tham số bị ràng buộc bằng không; trong trường hợp này, tham số "dự phòng" bổ sung tương ứng với chức năng phân vùng nhật ký và sự tương đương của hai yếu tố quyết định FIM có thể được hiển thị dựa trên phần bù Schur của FIM lớn hơn. (Trên thực tế, đối với các mô hình log-linear, FIM nhỏ hơn chỉ là phần bù Schur của FIM lớn hơn.)

Ai đó có thể giải thích liệu thuộc tính này có mở rộng ra một tập hợp lớn hơn các mô hình tham số không (ví dụ cho tất cả các gia đình hàm mũ), cho phép tùy chọn lấy các định thức FIM dựa trên tập tham số "mở rộng" như vậy? Tức là giả sử bất kỳ mô hình thống kê nhất định nào với tham số nằm trên đa tạp chiều được nhúng trong không gian hai chiều . Bây giờ, nếu chúng tôi mở rộng tập hợp các tham số để bao gồm thêm một chiều (hoàn toàn bị ràng buộc dựa trên các tham số khác) và tính toán các tham số dựa trên FIM đó , chúng tôi sẽ luôn nhận được cùng một định thức như dựa trên ban đầu (độc lập) tham số? Ngoài ra, hai FIM này có liên quan như thế nào?n ( n + 1 ) ( n + 1 ) nnn(n+1)(n+1)n

Lý do tôi hỏi câu hỏi này là FIM với tham số phụ thường xuất hiện đơn giản hơn. Suy nghĩ đầu tiên của tôi là điều này không nên làm việc nói chung. FIM liên quan đến việc tính toán các dẫn xuất một phần của khả năng ghi nhật ký ghi từng tham số. Các đạo hàm riêng này giả định rằng, trong khi tham số trong câu hỏi thay đổi, tất cả các tham số khác không đổi, điều này không đúng khi chúng ta liên quan đến tham số phụ (bị ràng buộc). Trong trường hợp này, đối với tôi, các đạo hàm riêng không còn hiệu lực vì chúng ta không thể giả sử các tham số khác là hằng số; tuy nhiên, tôi vẫn chưa tìm thấy bằng chứng cho thấy đây thực sự là một vấn đề. (Nếu đạo hàm riêng có vấn đề trong trường hợp có tham số phụ thuộc, thì tổng đạo hàm(n+1)×(n+1)cần thay thế? Tôi chưa thấy một ví dụ về tính toán FIM với tổng các công cụ phái sinh, nhưng có lẽ đó là giải pháp ...)

Ví dụ duy nhất tôi có thể tìm thấy trực tuyến tính toán FIM dựa trên bộ tham số "mở rộng" như sau: các ghi chú này chứa một ví dụ cho phân phối phân loại, tính toán các đạo hàm riêng được yêu cầu như bình thường (ví dụ như mỗi tham số là độc lập , mặc dù có một ràng buộc trong số các tham số).


1
Câu hỏi hay! Tôi nghĩ rằng đặc tả hai tham số của biến ngẫu nhiên Bernoulli là ví dụ khá đáng tiếc, bởi vì không có ràng buộc, không còn bị ràng buộc là mật độ. Bạn có thể tái tạo quan sát của bạn cho gia đình hàm mũ cong, ví dụ? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa Tôi giả sử rằng ràng buộc áp dụng trong trường hợp hai tham số (trường hợp bạn đã đề cập), vì vậy hàm khả năng vẫn sẽ là mật độ hợp lệ. Ngoài ra, có, tôi có thể tái tạo quan sát này, ví dụ như đối với các mô hình log-linear với các tập hợp con khác nhau của các tham số bị ràng buộc bằng không; trong trường hợp này, tham số "dự phòng" tương ứng với chức năng phân vùng nhật ký. θ1+θ2=1
Tyler Streeter

1
Còn thì sao? N(μ,μ2)
Khashaa

Câu trả lời:


4

Đối với , ma trận thông tin là Dành choVì vậy, quan sát của bạn rằng các yếu tố quyết định bằng nhau không phải là phổ quát, nhưng đó không phải là toàn bộ câu chuyện.Tôi 1 = ( 1XN(μ,σ2)X~N(μ,μ2)Tôi2=3

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Nói chung, nếu là ma trận thông tin trong phần lặp lại thì không khó để thấy điều đó ma trận thông tin cho các tham số ban đầu là trong đó là Jacobian của phép biến đổi . g(θ)=( g 1 (θ),..., G k (θ) ) ' ,tôi(θ)= G ' Tôi g (g(θ))GIg

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
g = g ( θ )Gg=g(θ)

Ví dụ về Bernoulli và . Vì vậy, Jacobian là và do đó (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Đối với ví dụ thông thường cong,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Tôi nghĩ bây giờ bạn có thể dễ dàng liên quan đến các yếu tố quyết định.

Theo dõi sau khi nhận xét

Nếu tôi hiểu bạn một cách chính xác, FIM có giá trị miễn là bạn mở rộng các tham số theo cách có ý nghĩa: khả năng theo tham số mới phải là mật độ hợp lệ. Do đó, tôi đã gọi ví dụ Bernoulli là một điều không may.

Tôi nghĩ rằng liên kết bạn cung cấp có một lỗ hổng nghiêm trọng trong việc tạo ra FIM cho các biến phân loại, vì chúng tôi có và . Kỳ vọng của Hessian âm cho , nhưng không cho hiệp phương sai của các vectơ điểm. Nếu bạn bỏ qua các ràng buộc, đẳng thức ma trận thông tin sẽ không giữ được. E ( x i x j ) = θ i θ j0 d i a g { 1 / θ i }E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Cảm ơn đã đề cập đến phương pháp chuyển đổi Jacobian và cho các ví dụ đơn giản, rõ ràng. Bạn có thể (hoặc bất kỳ ai khác) nhận xét về vấn đề sau đây vẫn còn liên quan đến tôi không: khi mở rộng bộ tham số theo một chiều, như chúng tôi đang làm ở đây, chúng tôi đưa ra một ràng buộc giữa các tham số sao cho bất kỳ đạo hàm riêng nào (theo yêu cầu của FIM) không hợp lệ vì bây giờ, khi chúng ta thay đổi một tham số, các tham số khác không còn là hằng số. Vì vậy, FIM thậm chí có hiệu lực đối với bộ tham số mở rộng, cho rằng các đạo hàm riêng không hợp lệ do các ràng buộc bổ sung?
Tyler Streeter

@TylerStreeter Tôi đã cập nhật câu trả lời của mình để giải quyết vấn đề của bạn.
Khashaa

3

Dường như kết quả giữ cho một loại quan hệ cụ thể giữa các tham số.

Không yêu cầu tổng quát đầy đủ cho các kết quả bên dưới, tôi dính vào trường hợp "một đến hai tham số". Biểu thị phương trình ngầm thể hiện mối quan hệ đó phải giữ giữa hai tham số. Sau đó, khả năng đăng nhập "mở rộng chính xác", "hai tham số" (không phải những gì OP tính toán - chúng tôi sẽ đến đó)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
tương đương với khả năng thực sự của , vì , ( là một số nhân) và chúng ta có thể coi hai tham số là độc lập, trong khi chúng ta phân biệt.Lg(θ0,θ1)=0λ

Sử dụng các chỉ số để biểu thị các công cụ phái sinh liên quan đến các tham số (một công cụ phái sinh thứ nhất, hai công cụ phái sinh thứ hai), yếu tố quyết định của Hessian về khả năng đăng nhập mở rộng chính xác sẽ là

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

OP đang làm gì thay thế?

Anh ta xem xét khả năng sai "bỏ qua" mối quan hệ giữa hai tham số và không tính đến ràng buộc . Sau đó, anh ta tiến hành phân biệt và thu đượcL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

Rõ ràng là không nói chung bằng .(2)(1)

Nhưng nếu , thìg00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Vì vậy, nếu mối quan hệ giữa tham số thực và tham số dự phòng sao cho các đạo hàm riêng thứ hai của hàm ẩn liên kết chúng đều bằng 0 , thì cách tiếp cận sai về cơ bản, kết thúc là "đúng".

Đối với trường hợp Bernoulli, chúng tôi thực sự có

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

PHỤ LỤC
Để đáp ứng với @Khashaa câu hỏi và thể hiện các cơ chế ở đây, chúng ta xem xét một khả năng chỉ định với một tham số không cần thiết, nhưng cũng dưới một hạn chế mà liên kết các thông số cần thiết với một sự thật. Những gì chúng ta làm với khả năng đăng nhập là tối đa hóa chúng - vì ở đây chúng ta có một trường hợp tối đa hóa bị ràng buộc. Giả sử một mẫu có kích thước ,:n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Vấn đề này có một Langrangean (cái mà tôi gọi là "khả năng mở rộng chính xác" ở trên),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Các điều kiện đặt hàng đầu tiên cho tối đa là

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

mà chúng tôi có được mối quan hệ

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

sử dụng các ràng buộc theo đó các giá trị trên là hợp lệ, chúng tôi có đượcθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

như chúng ta nên

Hơn nữa, vì ràng buộc là tuyến tính trong tất cả các tham số, các đạo hàm thứ hai của nó sẽ bằng không. Điều này được phản ánh trong thực tế là trong các dẫn xuất đầu tiên của lagrangean, hệ số nhân "đứng một mình" và nó sẽ bị loại bỏ khi chúng ta lấy các dẫn xuất thứ hai của lagrangean. Đến lượt nó sẽ dẫn chúng ta đến một Hessian có định thức sẽ bằng đạo hàm thứ hai (một chiều) của khả năng ghi nhật ký một tham số ban đầu, sau khi áp đặt cả ràng buộc (đó là những gì OP làm). Sau đó, lấy giá trị âm của giá trị dự kiến ​​trong cả hai trường hợp, không thay đổi sự tương đương toán học này và chúng ta đi đến mối quan hệ "Thông tin Fisher một chiều = xác định của Thông tin Fisher hai chiều". Hiện nayλcho rằng ràng buộc là tuyến tính trong tất cả các tham số, OP thu được cùng một kết quả (ở mức đạo hàm thứ hai) mà không đưa ra ràng buộc với số nhân trong hàm được tối đa hóa, bởi vì ở mức đạo hàm thứ hai, sự hiện diện / hiệu ứng của ràng buộc biến mất trong trường hợp như vậy.

Tất cả những điều này phải làm với tính toán, không phải với các khái niệm thống kê.


Tôi dường như không thể làm theo logic của bạn. Bạn có thể giải thích tại sao giống Lagrangean được coi là khả năng đăng nhập "mở rộng chính xác", "hai tham số" không? Ngoài ra, Hessian hoàn toàn bí ẩn đối với tôi. Bạn đang tính toán ma trận thông tin quan sát? Le
Khashaa

@Khashaa Thuật ngữ được thiết lập là "Hessian" là ma trận của các đạo hàm thứ hai của hàm đa biến.
Alecos Papadopoulos

Sẽ rất hữu ích nếu những người downvoters ở đây đăng một câu trả lời - bởi vì ví dụ cụ thể của OP tồn tại - và yêu cầu một lời giải thích.
Alecos Papadopoulos

Xin lỗi, nếu câu hỏi của tôi không rõ ràng. Câu hỏi của tôi là về cách bạn liên kết Hessian với ma trận thông tin, vì tôi không thấy bất kỳ kỳ vọng nào hoạt động trên nó và kết quả có vẻ giống như một ma trận thông tin quan sát được. Bên cạnh đó, bạn có thể giải thích tại sao là loglikabilities chính xác? Tôi đoán bạn đang sử dụng một số phương pháp nguyên tắc để đánh giá khả năng bị hạn chế, nhưng tôi không hiểu cách thức hoạt động của nó. Le
Khashaa

@Khashaa Tôi đã thêm một giải trình bằng ví dụ của OP.
Alecos Papadopoulos
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.