Cố gắng bổ sung cho các câu trả lời khác ... Loại thông tin nào là thông tin của Fisher? Bắt đầu với hàm loglikabilities
là một hàm của cho , không gian tham số. Giả sử một số điều kiện đều đặn mà chúng tôi không thảo luận ở đây, chúng tôi có
(chúng tôi sẽ viết các đạo hàm liên quan đến tham số dưới dạng dấu chấm như ở đây). Phương sai là thông tin Fisher
ℓ(θ)=logf(x;θ)
θθ∈ΘE∂∂θℓ(θ)=Eθℓ˙(θ)=0I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
công thức cuối cùng cho thấy đó là độ cong (âm) của hàm loglikabilities. Người ta thường tìm thấy công cụ ước tính khả năng tối đa (mle) của bằng cách giải phương trình khả năng khi thông tin của Fisher là phương sai của điểm số là lớn, sau đó giải pháp cho phương trình đó sẽ rất nhạy cảm với dữ liệu, mang lại hy vọng cho độ chính xác cao của mle. Điều đó được xác nhận ít nhất là không có triệu chứng, phương sai tiệm cận của mle là nghịch đảo của thông tin Fisher.
θℓ˙(θ)=0ℓ˙(θ)
Làm thế nào chúng ta có thể giải thích điều này? là thông tin khả năng về tham số từ mẫu. Điều này thực sự chỉ có thể được hiểu theo nghĩa tương đối, như khi chúng ta sử dụng nó để so sánh tính hợp lý của hai giá trị tham số riêng biệt có thể thông qua phép thử tỷ lệ khả năng . Tốc độ thay đổi của loglikabilities là hàm điểm cho chúng ta biết khả năng thay đổi nhanh như thế nào và phương sai nó thay đổi bao nhiêu từ mẫu này sang mẫu khác, tại một thông số cụ thể giá trị, giả sử . Phương trình (thật sự đáng ngạc nhiên!)
ℓ(θ)θℓ(θ0)−ℓ(θ1)ℓ˙(θ)I(θ)θ0
I(θ)=−Eθℓ¨(θ)
cho chúng ta biết có mối quan hệ (bình đẳng) giữa tính biến thiên của thông tin (khả năng) đối với một giá trị tham số đã cho, và độ cong của hàm khả năng cho giá trị tham số đó. Đây là một mối quan hệ đáng ngạc nhiên giữa độ biến thiên (phương sai) của thống kê ths và sự thay đổi dự kiến về độ giống nhau khi chúng ta thay đổi tham số trong một khoảng thời gian xung quanh (cho cùng một dữ liệu). Điều này thực sự là cả lạ, đáng ngạc nhiên và mạnh mẽ!
θ0ℓ˙(θ)∣θ=θ0θθ0
Vậy chức năng khả năng là gì? Chúng ta thường nghĩ về mô hình thống kê như một họ phân phối xác suất cho dữ liệu , được lập chỉ mục bởi tham số một số phần tử trong không gian tham số . Chúng tôi nghĩ mô hình này là đúng nếu tồn tại một số giá trị sao cho dữ liệu thực sự có phân phối xác suất . Vì vậy, chúng tôi có được một mô hình thống kê bằng cách nhúng phân phối xác suất dữ liệu thực sự{f(x;θ),θ∈Θ}xθΘθ0∈Θxf(x;θ0)f(x;θ0)trong một gia đình phân phối xác suất. Tuy nhiên, rõ ràng việc nhúng như vậy có thể được thực hiện theo nhiều cách khác nhau và mỗi lần nhúng như vậy sẽ là một mô hình "đúng" và chúng sẽ cung cấp các chức năng khả năng khác nhau. Và, không có sự nhúng như vậy, không có chức năng khả năng. Có vẻ như chúng tôi thực sự cần một số trợ giúp, một số nguyên tắc để chọn cách nhúng một cách khôn ngoan!
Vì vậy, điều này có nghĩa là gì? Điều đó có nghĩa là sự lựa chọn của hàm khả năng cho chúng ta biết chúng ta sẽ mong đợi dữ liệu thay đổi như thế nào, nếu sự thật thay đổi một chút. Nhưng, điều này thực sự không thể được xác minh bởi dữ liệu, vì dữ liệu chỉ cung cấp thông tin về hàm mô hình thực thực sự tạo ra dữ liệu và không có gì về tất cả các yếu tố khác trong mô hình được chọn. Bằng cách này, chúng ta thấy rằng lựa chọn chức năng khả năng tương tự như lựa chọn trước trong phân tích Bayes, nó đưa thông tin phi dữ liệu vào phân tích. Chúng ta hãy xem xét điều này trong một ví dụ đơn giản (hơi nhân tạo) và xem xét hiệu quả của việc nhúng trong một mô hình theo các cách khác nhau.f(x;θ0)f(x;θ0)
Giả sử rằng là iid là . Vì vậy, đó là phân phối tạo dữ liệu thực sự. Bây giờ, chúng ta hãy nhúng mô hình này vào một mô hình theo hai cách khác nhau, mô hình A và mô hình B.
bạn có thể kiểm tra xem điều này có trùng với .X1,…,XnN(μ=10,σ2=1)
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Các hàm loglikabilities trở thành
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Các hàm số điểm: (dẫn xuất loglikabilities):
và độ cong
vì vậy, thông tin Fisher thực sự phụ thuộc vào việc nhúng. Bây giờ, chúng tôi tính toán thông tin Fisher theo giá trị thực ,
vì vậy thông tin Fisher về tham số có phần lớn hơn trong mô hình B.
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Điều này minh họa rằng, theo một cách nào đó, thông tin Fisher cho chúng ta biết thông tin từ dữ liệu về tham số sẽ thay đổi nhanh như thế nào nếu tham số quản trị thay đổi theo cách được đưa ra trong một họ mô hình . Giải thích về thông tin cao hơn trong mô hình B là gia đình người mẫu B của chúng tôi cho rằng nếu kỳ vọng sẽ tăng lên, thì phương sai cũng sẽ tăng . Vì vậy, theo mô hình B, phương sai mẫu cũng sẽ mang thông tin về , điều này sẽ không thực hiện theo mô hình A.μ
Ngoài ra, ví dụ này minh họa rằng chúng ta thực sự cần một số lý thuyết để giúp chúng ta trong cách xây dựng các gia đình kiểu mẫu.