Những loại thông tin là thông tin Fisher?


29

Giả sử chúng ta có một biến ngẫu nhiên . Nếu là tham số thực, hàm khả năng sẽ được tối đa hóa và đạo hàm bằng 0. Đây là nguyên tắc cơ bản đằng sau công cụ ước tính khả năng tối đa.Xf(x|θ)θ0

Theo tôi hiểu, thông tin của Fisher được định nghĩa là

I(θ)=E[(θf(X|θ))2]

Do đó, nếu là tham số thực, . Nhưng nếu nó không phải là thông số đúng, thì chúng ta sẽ có một số lượng lớn thông tin Fisher.θ0I(θ)=0θ0

những câu hỏi của tôi

  1. Thông tin của Fisher có đo lường "lỗi" của một MLE cụ thể không? Nói cách khác, không phải sự tồn tại của thông tin Fisher tích cực có nghĩa là MLE của tôi không thể lý tưởng?
  2. Định nghĩa về "thông tin" này khác với định nghĩa được sử dụng bởi Shannon như thế nào? Tại sao chúng ta gọi nó là thông tin?

Tại sao bạn viết nó ? Kỳ vọng vượt quá các giá trị của phân phối như thể chúng đến từ phân phối của bạn với tham số . EθXθ
Neil G

3
Ngoài ra không bằng 0 ở tham số thực. I(θ)
Neil G

E (S) bằng 0 (nghĩa là: kỳ vọng của hàm điểm), nhưng như Neil G đã viết - thông tin câu cá (V (S)) không (thường) bằng không.
Tal Galili

Câu trả lời:


15

Cố gắng bổ sung cho các câu trả lời khác ... Loại thông tin nào là thông tin của Fisher? Bắt đầu với hàm loglikabilities là một hàm của cho , không gian tham số. Giả sử một số điều kiện đều đặn mà chúng tôi không thảo luận ở đây, chúng tôi có (chúng tôi sẽ viết các đạo hàm liên quan đến tham số dưới dạng dấu chấm như ở đây). Phương sai là thông tin Fisher

(θ)=logf(x;θ)
θθΘEθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
công thức cuối cùng cho thấy đó là độ cong (âm) của hàm loglikabilities. Người ta thường tìm thấy công cụ ước tính khả năng tối đa (mle) của bằng cách giải phương trình khả năng khi thông tin của Fisher là phương sai của điểm số là lớn, sau đó giải pháp cho phương trình đó sẽ rất nhạy cảm với dữ liệu, mang lại hy vọng cho độ chính xác cao của mle. Điều đó được xác nhận ít nhất là không có triệu chứng, phương sai tiệm cận của mle là nghịch đảo của thông tin Fisher.θ˙(θ)=0˙(θ)

Làm thế nào chúng ta có thể giải thích điều này? là thông tin khả năng về tham số từ mẫu. Điều này thực sự chỉ có thể được hiểu theo nghĩa tương đối, như khi chúng ta sử dụng nó để so sánh tính hợp lý của hai giá trị tham số riêng biệt có thể thông qua phép thử tỷ lệ khả năng . Tốc độ thay đổi của loglikabilities là hàm điểm cho chúng ta biết khả năng thay đổi nhanh như thế nào và phương sai nó thay đổi bao nhiêu từ mẫu này sang mẫu khác, tại một thông số cụ thể giá trị, giả sử . Phương trình (thật sự đáng ngạc nhiên!) (θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
cho chúng ta biết có mối quan hệ (bình đẳng) giữa tính biến thiên của thông tin (khả năng) đối với một giá trị tham số đã cho, và độ cong của hàm khả năng cho giá trị tham số đó. Đây là một mối quan hệ đáng ngạc nhiên giữa độ biến thiên (phương sai) của thống kê ths và sự thay đổi dự kiến ​​về độ giống nhau khi chúng ta thay đổi tham số trong một khoảng thời gian xung quanh (cho cùng một dữ liệu). Điều này thực sự là cả lạ, đáng ngạc nhiên và mạnh mẽ!θ0˙(θ)θ=θ0θθ0

Vậy chức năng khả năng là gì? Chúng ta thường nghĩ về mô hình thống kê như một họ phân phối xác suất cho dữ liệu , được lập chỉ mục bởi tham số một số phần tử trong không gian tham số . Chúng tôi nghĩ mô hình này là đúng nếu tồn tại một số giá trị sao cho dữ liệu thực sự có phân phối xác suất . Vì vậy, chúng tôi có được một mô hình thống kê bằng cách nhúng phân phối xác suất dữ liệu thực sự{f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)trong một gia đình phân phối xác suất. Tuy nhiên, rõ ràng việc nhúng như vậy có thể được thực hiện theo nhiều cách khác nhau và mỗi lần nhúng như vậy sẽ là một mô hình "đúng" và chúng sẽ cung cấp các chức năng khả năng khác nhau. Và, không có sự nhúng như vậy, không có chức năng khả năng. Có vẻ như chúng tôi thực sự cần một số trợ giúp, một số nguyên tắc để chọn cách nhúng một cách khôn ngoan!

Vì vậy, điều này có nghĩa là gì? Điều đó có nghĩa là sự lựa chọn của hàm khả năng cho chúng ta biết chúng ta sẽ mong đợi dữ liệu thay đổi như thế nào, nếu sự thật thay đổi một chút. Nhưng, điều này thực sự không thể được xác minh bởi dữ liệu, vì dữ liệu chỉ cung cấp thông tin về hàm mô hình thực thực sự tạo ra dữ liệu và không có gì về tất cả các yếu tố khác trong mô hình được chọn. Bằng cách này, chúng ta thấy rằng lựa chọn chức năng khả năng tương tự như lựa chọn trước trong phân tích Bayes, nó đưa thông tin phi dữ liệu vào phân tích. Chúng ta hãy xem xét điều này trong một ví dụ đơn giản (hơi nhân tạo) và xem xét hiệu quả của việc nhúng trong một mô hình theo các cách khác nhau.f(x;θ0)f(x;θ0)

Giả sử rằng là iid là . Vì vậy, đó là phân phối tạo dữ liệu thực sự. Bây giờ, chúng ta hãy nhúng mô hình này vào một mô hình theo hai cách khác nhau, mô hình A và mô hình B. bạn có thể kiểm tra xem điều này có trùng với .X1,,XnN(μ=10,σ2=1)

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Các hàm loglikabilities trở thành

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

Các hàm số điểm: (dẫn xuất loglikabilities): và độ cong vì vậy, thông tin Fisher thực sự phụ thuộc vào việc nhúng. Bây giờ, chúng tôi tính toán thông tin Fisher theo giá trị thực , vì vậy thông tin Fisher về tham số có phần lớn hơn trong mô hình B.

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

Điều này minh họa rằng, theo một cách nào đó, thông tin Fisher cho chúng ta biết thông tin từ dữ liệu về tham số sẽ thay đổi nhanh như thế nào nếu tham số quản trị thay đổi theo cách được đưa ra trong một họ mô hình . Giải thích về thông tin cao hơn trong mô hình B là gia đình người mẫu B của chúng tôi cho rằng nếu kỳ vọng sẽ tăng lên, thì phương sai cũng sẽ tăng . Vì vậy, theo mô hình B, phương sai mẫu cũng sẽ mang thông tin về , điều này sẽ không thực hiện theo mô hình A.μ

Ngoài ra, ví dụ này minh họa rằng chúng ta thực sự cần một số lý thuyết để giúp chúng ta trong cách xây dựng các gia đình kiểu mẫu.


1
giải thích tuyệt vời. Tại sao bạn nói ? đó là chức năng của - không phải là 0 chỉ khi được đánh giá ở tham số thực ? \Eθ˙(θ)=0θθ0
ihadanny

1
Vâng, những gì bạn nói là đúng, @idadanny Nó bằng 0 khi được đánh giá ở giá trị tham số thực.
kjetil b halvorsen

Cảm ơn một lần nữa @kjetil - vì vậy chỉ còn một câu hỏi nữa: mối quan hệ đáng ngạc nhiên giữa phương sai của điểm số và độ cong của khả năng có đúng với mọi không? hoặc chỉ trong vùng lân cận của tham số thực ? θθ0
ihadanny

Một lần nữa, trelationship đó là đúng với giá trị tham số thực. Nhưng để có được nhiều sự giúp đỡ, cần phải có sự liên tục, để nó gần đúng ở một số vùng lân cận, vì chúng ta sẽ sử dụng nó ở giá trị ước tính , không chỉ ở giá trị thật (chưa biết). θ^
kjetil b halvorsen 16/8/2016

vì vậy, mối quan hệ giữ cho tham số thực , nó gần như giữ cho vì chúng tôi cho rằng nó nằm trong vùng lân cận của , nhưng đối với một chung thì nó không giữ được, phải không? θ0θmleθ0θ1
ihadanny

31

Chúng ta hãy nghĩ về hàm khả năng log log âm . Điểm âm là độ dốc của nó đối với giá trị tham số. Ở tham số thực, điểm số bằng không. Mặt khác, nó đưa ra hướng về phía tối thiểu (hoặc trong trường hợp không lồi , điểm yên ngựa hoặc tối thiểu hoặc tối đa cục bộ).

Thông tin Fisher đo độ cong của xung quanh nếu dữ liệu theo sau . Nói cách khác, nó cho bạn biết mức độ rung của tham số sẽ ảnh hưởng đến khả năng đăng nhập của bạn.θθ

Hãy xem xét rằng bạn đã có một mô hình lớn với hàng triệu thông số. Và bạn đã có một ổ nhỏ để lưu trữ mô hình của bạn. Bạn nên ưu tiên bao nhiêu bit của mỗi tham số để lưu trữ? Câu trả lời đúng là phân bổ bit theo thông tin của Fisher (Rissanen đã viết về điều này). Nếu thông tin Fisher của một tham số bằng 0, tham số đó không thành vấn đề.

Chúng tôi gọi đó là "thông tin" vì thông tin của Fisher đo lường thông số này cho chúng tôi biết bao nhiêu về dữ liệu.


Một cách thông thường để suy nghĩ về nó là: Giả sử các thông số đang lái xe và dữ liệu ở ghế sau sửa lỗi cho người lái xe. Sự khó chịu của dữ liệu là thông tin của Fisher. Nếu dữ liệu cho phép lái xe, thông tin Fisher bằng không; nếu dữ liệu liên tục được chỉnh sửa, nó sẽ rất lớn. Theo nghĩa này, thông tin Fisher là lượng thông tin đi từ dữ liệu đến các tham số.

Xem xét những gì xảy ra nếu bạn làm cho tay lái nhạy hơn. Điều này tương đương với một sự lặp lại. Trong trường hợp đó, dữ liệu không muốn quá ồn ào vì sợ chiếc xe bị quá tải. Kiểu lặp lại này làm giảm thông tin của Fisher.


20

Bổ sung cho câu trả lời hay của @ NeilG (+1) và để giải quyết các câu hỏi cụ thể của bạn:

  1. Tôi muốn nói rằng nó tính "chính xác" chứ không phải là "lỗi".

Hãy nhớ rằng Hessian về khả năng đăng nhập được đánh giá theo ước tính ML là thông tin Fisher được quan sát. Các lỗi tiêu chuẩn ước tính là căn bậc hai của các phần tử đường chéo nghịch đảo của ma trận thông tin Fisher được quan sát. Xuất phát từ điều này, thông tin của Fisher là dấu vết của ma trận thông tin Fisher. Cho rằng ma trận Thông tin Fisher là ma trận ma trận bán nguyệt dương, sau đó các mục chéo của nó là thực và không âm; như một hệ quả trực tiếp, nó theo dõi phải là dương tính. Điều này có nghĩa là bạn chỉ có thể có các ước tính "không lý tưởng" theo khẳng định của mình. Vì vậy, không, thông tin tích cực của Fisher không liên quan đến mức độ lý tưởng của MLE của bạn.IIj,jtr(I)

  1. Định nghĩa khác nhau ở cách chúng ta diễn giải khái niệm thông tin trong cả hai trường hợp. Phải nói rằng, hai phép đo có liên quan chặt chẽ.

Nghịch đảo thông tin của Fisher là phương sai tối thiểu của một công cụ ước lượng không thiên vị ( ràng buộc Cramériêu Rao ). Theo nghĩa đó, ma trận thông tin cho biết có bao nhiêu thông tin về các hệ số ước tính được chứa trong dữ liệu. Trái lại, entropy Shannon được lấy từ nhiệt động lực học. Nó liên quan đến nội dung thông tin của một giá trị cụ thể của một biến là trong đó là xác suất của biến lấy giá trị đó. Cả hai đều là các phép đo về mức độ "thông tin" của một biến. Trong trường hợp đầu tiên mặc dù bạn đánh giá thông tin này về độ chính xác trong khi trong trường hợp thứ hai về sự rối loạn; mặt khác nhau, cùng một đồng tiền! : Dp·log2(p)p

Tóm tắt lại: Nghịch đảo của ma trận thông tin Fisher đánh giá ở các giá trị ước tính ML là ma trận hiệp phương sai tiệm cận hoặc gần đúng. Vì các giá trị ước tính ML này được tìm thấy trong một đồ họa tối thiểu cục bộ, thông tin Fisher cho thấy mức độ tối thiểu đó là bao nhiêu và bạn có bao nhiêu phòng ngọ nguậy xung quanh nó. Tôi tìm thấy bài báo này của Lutwak et al. về phần mở rộng thông tin của Fisher và sự bất bình đẳng của Stam, một thông tin được đọc về vấn đề này. Các bài viết trên Wikipedia về Số liệu thông tin của Fisher và về sự khác biệt của Jensen về Shannon cũng rất tốt để bạn bắt đầu.I

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.