Giải thích trực quan về Thông tin của Fisher và Cramer-Rao bị ràng buộc


59

Tôi không thoải mái với thông tin của Fisher, những gì nó đo lường và nó hữu ích như thế nào. Ngoài ra, mối quan hệ với ràng buộc Cramer-Rao không rõ ràng đối với tôi.

Ai đó có thể xin vui lòng giải thích trực quan về các khái niệm này?


1
Có bất cứ điều gì trong bài viết Wikipedia đang gây ra vấn đề? Nó đo lượng thông tin mà một biến ngẫu nhiên có thể quan sát được mang về một tham số chưa biết mà xác suất của phụ thuộc và nghịch đảo của nó là Cramer-Rao bị ràng buộc thấp hơn dựa trên phương sai của công cụ ước lượng không thiên vị của . θ X θXθXθ
Henry

2
Tôi hiểu điều đó nhưng tôi không thực sự thoải mái với nó. Giống như, chính xác thì "lượng thông tin" nghĩa là gì ở đây. Tại sao kỳ vọng tiêu cực của bình phương của đạo hàm riêng của mật độ đo thông tin này? Biểu hiện đến từ đâu v.v ... Đó là lý do tại sao tôi hy vọng có được một chút trực giác về nó.
Vô cực

@Infinity: Điểm số là tỷ lệ thay đổi tỷ lệ trong khả năng của dữ liệu được quan sát khi tham số thay đổi, và rất hữu ích cho suy luận. Thông tin của Fisher về phương sai của điểm số (không có nghĩa). Về mặt toán học, nó là kỳ vọng của bình phương của đạo hàm riêng thứ nhất của logarit của mật độ và do đó là âm của kỳ vọng của đạo hàm riêng thứ hai của logarit của mật độ.
Henry

Câu trả lời:


32

Ở đây tôi giải thích tại sao phương sai tiệm cận của công cụ ước tính khả năng tối đa là giới hạn dưới của Cramer-Rao. Hy vọng rằng điều này sẽ cung cấp một số cái nhìn sâu sắc về sự liên quan của thông tin Fisher.

Suy luận thống kê tiến hành với việc sử dụng hàm khả năng mà bạn xây dựng từ dữ liệu. Ước tính điểm là giá trị tối đa hóa . Công cụ ước tính là một biến ngẫu nhiên, nhưng nó giúp nhận ra rằng hàm khả năng là một "đường cong ngẫu nhiên".θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

Ở đây, chúng tôi giả sử dữ liệu iid được rút ra từ một phân phối và chúng tôi xác định khả năng L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

Tham số có thuộc tính tối đa hóa giá trị của khả năng "đúng", . Tuy nhiên, hàm khả năng "được quan sát" được xây dựng từ dữ liệu hơi "tắt" so với khả năng thực sự. Tuy nhiên, như bạn có thể tưởng tượng, khi kích thước mẫu tăng lên, khả năng "quan sát" sẽ hội tụ thành hình dạng của đường cong khả năng thực sự. Điều tương tự cũng áp dụng cho đạo hàm của khả năng liên quan đến tham số, hàm số điểm . (Câu chuyện dài, thông tin Fisher xác định hàm số điểm quan sát hội tụ nhanh như thế nào với hình dạng của hàm điểm thực.E L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

Ở kích thước mẫu lớn, chúng tôi giả định rằng ước tính khả năng tối đa của chúng tôi rất gần với . Chúng tôi phóng to một khu phố nhỏ xung quanh và để hàm khả năng là "bậc hai cục bộ". qq qθ^θθθ^

Ở đó, là điểm tại đó hàm số điểm giao với điểm gốc. Trong khu vực nhỏ này, chúng tôi xử lý các chức năng điểm như một dòng , một có độ dốc và ngẫu nhiên đánh chặn b tại θ . Chúng ta biết từ phương trình cho một dòngL/qmộtθ^ L/θabθ

a(θ^θ)+b=0

hoặc là

θ^=θb/a.

Từ tính nhất quán của công cụ ước tính MLE, chúng tôi biết rằng

E(θ^)=θ

trong giới hạn

Do đó, không có triệu chứng

nVar(θ^)=nVar(b/a)

Nó chỉ ra rằng độ dốc thay đổi ít nhiều so với đánh chặn, và tiệm cận, chúng ta có thể đối xử với chức năng điểm là có độ dốc liên tục trong một khu phố nhỏ xung quanh . Do đó chúng ta có thể viếtθ

nVar(θ^)=1a2nVar(b)

Vậy, giá trị của n V a r ( b ) là gì? Nó chỉ ra rằng do một sự trùng hợp toán học kỳ diệu, chúng là cùng một đại lượng (modulo một dấu trừ), thông tin Fisher.anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Do vậy,

tiệm cận: các Cramer-Rao thấp hơn ràng buộc. (Cho thấy1/I(θ)là giới hạn dưới của phương sai của công cụ ước lượng không thiên vị là một vấn đề khác.)

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
1/I(θ)

2
Có bất kỳ biểu diễn đồ họa nào của phần mà bạn đề cập rằng hàm khả năng là bậc hai cục bộ không?
quirik

@quirik, hãy xem xét sử dụng bản mở rộng Taylor thứ hai xung quanh theta_hat.
idnavid

@ charles.y.zheng Đây là một trong những giải thích thú vị nhất về cảnh.
idnavid

13

Một cách mà tôi hiểu thông tin nghề cá là theo định nghĩa sau:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

f(x|θ)XθXf(x|θ)dx=1

Bây giờ khi bạn thực hiện ước tính khả năng tối đa (chèn "điều kiện thường xuyên" vào đây), bạn đặt

θlog[f(x|θ)]=0

θθx

Một điều mà tôi vẫn thấy tò mò là khả năng đăng nhập của nó dốc đến mức nào và không phải là chức năng đơn điệu khác của khả năng như thế nào (có lẽ liên quan đến các chức năng chấm điểm "đúng" trong lý thuyết quyết định? Hoặc có thể là các tiên đề nhất quán của entropy ?).

exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

Và khi bạn taylor mở rộng khả năng đăng nhập về MLE:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

θ


1
"Một điều mà tôi vẫn thấy tò mò là khả năng đăng nhập của nó dốc như thế nào chứ không phải là một số chức năng đơn điệu khác của khả năng đó dốc đến mức nào." Tôi chắc chắn rằng bạn có thể rút ra các tương tự cho thông tin của Fisher về các biến đổi khác của khả năng, nhưng sau đó bạn sẽ không nhận được một biểu thức gọn gàng nào cho Cramer-Rao bị ràng buộc thấp hơn.
charles.y.zheng

2

Đây là bài viết trực quan nhất mà tôi đã thấy cho đến nay:

Giới hạn dưới của Cramér-Rao về phương sai: Nguyên tắc không chắc chắn của Adam và Eve của Michael R. Powers, Tạp chí Tài chính rủi ro, Tập. 7, số 3, 2006

Sự ràng buộc được giải thích bằng sự tương tự của Adam và Eva trong Vườn Địa đàng ném một đồng xu để xem ai được ăn trái cây và sau đó họ tự hỏi mình cần một mẫu lớn đến mức nào để đạt được mức độ chính xác nhất định trong ước tính của họ, và sau đó họ phát hiện ra ràng buộc này ...

Câu chuyện hay với một thông điệp sâu sắc về thực tế.


6
Cảm ơn bạn đã đăng tài liệu tham khảo này. Tuy nhiên, cuối cùng tôi đã thất vọng khi thấy rằng nó không thực sự giải thích CRLB. Nó chỉ tuyên bố nó, mà không cung cấp bất kỳ cái nhìn sâu sắc nào về lý do tại sao nó đúng và chỉ cung cấp một số ngôn ngữ gợi mở nhưng cuối cùng vô nghĩa, như "bóp thông tin", trong một nỗ lực để giải thích nó.
whuber

@whuber: Đủ công bằng, tôi đồng ý rằng nó có thể lặn sâu hơn và kết thúc hơi đột ngột. Tuy nhiên, điều tôi thích về bài viết là nó thực sự có vẻ tự nhiên rằng có một mối liên hệ giữa kích thước mẫu, giá trị trung bình mẫu, định luật về số lượng lớn và phương sai mẫu chỉ có thể được giảm đến một điểm (nghĩa là phải có một số ràng buộc , mà tình cờ đã nói ở trên). Nó cũng làm rõ rằng đây không phải là một kết quả toán học khó nắm bắt mà thực sự là một tuyên bố về giới hạn của việc đạt được kiến ​​thức về thực tế.
vonjd

2

Mặc dù những lời giải thích được cung cấp ở trên rất thú vị và tôi rất thích xem qua chúng, tôi cảm thấy rằng bản chất của Cramer-Rao Lower Bound được giải thích tốt nhất cho tôi từ góc độ hình học. Trực giác này là một bản tóm tắt về khái niệm elip tập trung từ Chương 6 của cuốn sách Scharf về Xử lý tín hiệu thống kê .

θ Σ qθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Bây giờ, hãy nghĩ về các đường đồng mức của phân phối này cho . Bất kỳ ràng buộc giới hạn trên nào về xác suất của (nghĩa là ) sẽ dẫn đến một hình elip ở giữa với bán kính cố định . Thật dễ dàng để chỉ ra rằng có một mối quan hệ một-một giữa bán kính của ellipsoid và xác suất mong muốn . Nói cách khác, gần với trong một ellipsoid được xác định bởi bán kính với xác suấtθf ( θ ) d θP r θ r r P r θ θ r P rθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Ellipsoid này được gọi là ellipsoid nồng độ.

Xem xét mô tả ở trên, chúng ta có thể nói như sau về CRLB. Trong số tất cả các công cụ ước tính không thiên vị, CRLB đại diện cho công cụ ước tính với hiệp phương sai , với xác suất cố định "đóng" (như đã xác định ở trên) nồng độ ellipsoid. Hình dưới đây cung cấp một minh họa 2D (lấy cảm hứng từ minh họa trong cuốn sách của Scharf ).ΣcrlbPrθ^crlbΣcrlbPr

Minh họa 2D của CRLB trong bối cảnh các công cụ ước tính không thiên vị.


2
Vâng, đây là tuyệt vời đẫm máu, đặc biệt là hình ảnh, cần nhiều upvote.
Astrid
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.