Nó thực sự chỉ là một tiện ích cho loglikabilities, không có gì hơn.
Ý tôi là sự tiện lợi của các khoản tiền so với các sản phẩm: , các khoản tiền dễ xử lý hơn trong nhiều khía cạnh, chẳng hạn như phân biệt hoặc tích hợp. Nó không phải là tiện lợi cho chỉ các gia đình theo cấp số nhân, tôi đang cố gắng nói.ln(∏ixi)=∑ilnxi
Khi bạn đối phó với một mẫu ngẫu nhiên, các khả năng có dạng: , vì vậy loglikelihood sẽ phá vỡ sản phẩm này vào tổng thay vào đó, đó là dễ dàng hơn để thao tác và phân tích. Nó giúp tất cả những gì chúng ta quan tâm là điểm tối đa, giá trị ở mức tối đa không quan trọng, vì chúng ta có thể áp dụng bất kỳ phép biến đổi đơn điệu nào như logarit.L=∏ipi
Về trực giác cong. Về cơ bản, điều tương tự cuối cùng là đạo hàm thứ hai của loglikabilities.
CẬP NHẬT: Đây là những gì tôi có ý nghĩa về độ cong. Nếu bạn có một hàm , sau đó nó cong sẽ là ( xem (14) trên Wolfram):
κ = f " ( x )y=f(x)
κ=f′′(x)(1+f′(x)2)3/2
Đạo hàm bậc hai của log likelihood:
A=(lnf(x))′′=f′′(x)f(x)−(f′(x)f(x))2
Tại điểm tối đa, đạo hàm đầu tiên rõ ràng bằng không, vì vậy chúng tôi nhận được:
Do đó, châm biếm của tôi rằng độ cong của khả năng và đạo hàm thứ hai của loglikabilities là cùng một thứ, loại.
κmax=f′′(xmax)=Af(xmax)
Mặt khác, nếu đạo hàm đầu tiên của khả năng là nhỏ không chỉ ở nhưng xung quanh điểm tối đa, tức là hàm likelihood bằng phẳng sau đó chúng tôi nhận được:
Bây giờ khả năng phẳng không phải là một điều tốt cho chúng tôi, bởi vì nó làm cho việc tìm kiếm số lượng tối đa khó khăn hơn và khả năng tối đa không tốt hơn các điểm khác xung quanh nó, tức là các lỗi ước lượng tham số rất cao.
κ≈f′′(x)≈Af(x)
Và một lần nữa, chúng ta vẫn có mối quan hệ phái sinh và thứ hai. Vậy tại sao Fisher không nhìn vào độ cong của hàm khả năng? Tôi nghĩ đó là vì lý do thuận tiện tương tự. Dễ dàng hơn để thao tác loglikabilities vì số tiền thay vì sản phẩm. Vì vậy, anh ta có thể nghiên cứu độ cong của khả năng bằng cách phân tích đạo hàm thứ hai của loglikabilities. Mặc dù ngoại hình phương trình rất đơn giản cho độ cong , trong thực tế bạn đang dùng một hàm bậc hai của sản phẩm, đó là Messier hơn tổng các đạo hàm bậc hai.κmax=f′′(xmax)
CẬP NHẬT 2:
Đây là một cuộc biểu tình. Tôi vẽ một hàm khả năng (hoàn toàn tạo thành), a) độ cong và b) đạo hàm thứ 2 của nhật ký của nó. Ở phía bên trái, bạn thấy khả năng hẹp và ở phía bên phải, nó rộng. Bạn thấy làm thế nào tại điểm của khả năng tối đa a) và b) hội tụ, như họ nên. Quan trọng hơn, mặc dù, bạn có thể nghiên cứu độ rộng (hoặc độ phẳng) của hàm khả năng bằng cách kiểm tra đạo hàm thứ 2 của khả năng đăng nhập của nó. Như tôi đã viết trước đó, cái sau đơn giản hơn về mặt kỹ thuật để phân tích.
Không có gì đáng ngạc nhiên khi đạo hàm thứ 2 của tín hiệu loglikabilities có khả năng tâng bốc xung quanh mức tối đa của nó, điều không mong muốn vì nó gây ra lỗi ước lượng tham số lớn hơn.
Mã MATLAB trong trường hợp bạn muốn sao chép các ô:
f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);
h = 0.1;
x=-10:h:10;
% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])
% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])
CẬP NHẬT 3:
Trong đoạn mã trên tôi đã cắm một số hàm hình chuông tùy ý vào phương trình độ cong, sau đó tính đạo hàm thứ hai của nhật ký của nó. Tôi đã không điều chỉnh lại bất cứ điều gì, các giá trị được chuyển thẳng từ các phương trình để hiển thị sự tương đương mà tôi đã đề cập trước đó.
Đây là bài báo đầu tiên về khả năng mà Fisher xuất bản khi còn ở trường đại học, "Về một tiêu chí tuyệt đối cho các đường cong tần số phù hợp", Messenger of Mathmatics, 41: 155-160 (1912)
Vì tôi đã khăng khăng tất cả cùng anh ấy không đề cập đến bất kỳ kết nối "sâu hơn" nào về xác suất đăng nhập với entropy và các chủ đề ưa thích khác, anh ấy cũng không đưa ra tiêu chí thông tin của mình. Anh ta chỉ cần đặt phương trình P ′ = ∑ n 1 log p trên p.54 sau đó tiến hành nói về tối đa hóa xác suất. Theo tôi, điều này cho thấy rằng anh ta đã sử dụng logarit giống như một phương pháp thuận tiện để tự phân tích xác suất chung. Nó đặc biệt hữu ích trong việc khớp đường cong liên tục, mà anh ta đưa ra một công thức rõ ràng trên p.55:
logP′=∑n1logp
đăng nhậpP= ∫∞- ∞đăng nhậpfdx
P
Một điều cần lưu ý khi đọc bài báo, anh ta chỉ bắt đầu với công việc ước tính khả năng tối đa, và đã làm được nhiều việc hơn trong 10 năm sau đó, vì vậy ngay cả thuật ngữ MLE vẫn chưa được đặt ra, theo như tôi biết.