Động lực lý thuyết cho việc sử dụng khả năng đăng nhập so với khả năng


18

Tôi đang cố gắng để hiểu ở mức độ sâu hơn về tính phổ biến của khả năng đăng nhập (và có lẽ nói chung là xác suất log) trong thống kê và lý thuyết xác suất. Xác suất log xuất hiện ở mọi nơi: chúng tôi thường làm việc với khả năng phân tích log (ví dụ để tối đa hóa), thông tin của Fisher được định nghĩa theo đạo hàm thứ hai của khả năng đăng nhập, entropy là xác suất log dự kiến , Phân kỳ Kullback-Liebler liên quan đến xác suất log, sự phân chia dự kiến ​​là khả năng đăng nhập dự kiến, v.v.

Bây giờ tôi đánh giá cao nhiều lý do thực tếthuận tiện . Nhiều pdf phổ biến và hữu ích là từ các gia đình theo cấp số nhân, dẫn đến các thuật ngữ đơn giản hóa thanh lịch khi chuyển đổi log. Tổng số dễ làm việc hơn so với các sản phẩm (đặc biệt để phân biệt). Log-probs có lợi thế điểm nổi lớn so với probs thẳng. Chuyển đổi log một pdf thường chuyển đổi một hàm không lõm thành một hàm lõm. Nhưng lý do / lý do / động lực lý thuyết cho log-probs là gì?

Để làm ví dụ cho sự bối rối của tôi, hãy xem xét thông tin của Fisher (FI). Giải thích thông thường cho việc đặt trực tiếp vào FI là đạo hàm thứ hai của khả năng ghi nhật ký cho chúng ta biết mức độ "đỉnh" của log là như thế nào: khả năng đăng nhập cực đại có nghĩa là MLE được chỉ định rõ và chúng tôi tương đối chắc chắn về giá trị của nó , trong khi độ giống như log gần như phẳng (độ cong thấp) có nghĩa là nhiều giá trị tham số khác nhau gần như tốt (về khả năng đăng nhập) như MLE, vì vậy MLE của chúng tôi không chắc chắn hơn.

Đây là tất cả tốt và tốt, nhưng sẽ không tự nhiên hơn khi chỉ tìm độ cong của hàm khả năng (KHÔNG chuyển đổi log)? Thoạt nhìn, việc nhấn mạnh vào chuyển đổi log có vẻ tùy tiện và sai. Chắc chắn chúng ta quan tâm nhiều hơn đến độ cong của hàm khả năng thực tế. Động lực của Fisher để làm việc với chức năng điểm số và Hessian của khả năng đăng nhập là gì?

Có phải câu trả lời đơn giản là, cuối cùng, chúng ta có kết quả tốt đẹp từ khả năng đăng nhập không có triệu chứng? Ví dụ, Cramer-Rao và tính quy tắc của MLE / sau. Hay là có một lý do sâu sắc hơn?


2
Tôi đã hỏi một câu hỏi tương tự ở đây
Haitao Du

Câu trả lời:


13

Nó thực sự chỉ là một tiện ích cho loglikabilities, không có gì hơn.

Ý tôi là sự tiện lợi của các khoản tiền so với các sản phẩm: , các khoản tiền dễ xử lý hơn trong nhiều khía cạnh, chẳng hạn như phân biệt hoặc tích hợp. Nó không phải là tiện lợi cho chỉ các gia đình theo cấp số nhân, tôi đang cố gắng nói.ln(ixi)=ilnxi

Khi bạn đối phó với một mẫu ngẫu nhiên, các khả năng có dạng: , vì vậy loglikelihood sẽ phá vỡ sản phẩm này vào tổng thay vào đó, đó là dễ dàng hơn để thao tác và phân tích. Nó giúp tất cả những gì chúng ta quan tâm là điểm tối đa, giá trị ở mức tối đa không quan trọng, vì chúng ta có thể áp dụng bất kỳ phép biến đổi đơn điệu nào như logarit.L=ipi

Về trực giác cong. Về cơ bản, điều tương tự cuối cùng là đạo hàm thứ hai của loglikabilities.

CẬP NHẬT: Đây là những gì tôi có ý nghĩa về độ cong. Nếu bạn có một hàm , sau đó nó cong sẽ là ( xem (14) trên Wolfram): κ = f " ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

Đạo hàm bậc hai của log likelihood:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

Tại điểm tối đa, đạo hàm đầu tiên rõ ràng bằng không, vì vậy chúng tôi nhận được: Do đó, châm biếm của tôi rằng độ cong của khả năng và đạo hàm thứ hai của loglikabilities là cùng một thứ, loại.

κmax=f(xmax)=Af(xmax)

Mặt khác, nếu đạo hàm đầu tiên của khả năng là nhỏ không chỉ ở nhưng xung quanh điểm tối đa, tức là hàm likelihood bằng phẳng sau đó chúng tôi nhận được: Bây giờ khả năng phẳng không phải là một điều tốt cho chúng tôi, bởi vì nó làm cho việc tìm kiếm số lượng tối đa khó khăn hơn và khả năng tối đa không tốt hơn các điểm khác xung quanh nó, tức là các lỗi ước lượng tham số rất cao.

κf(x)Af(x)

Và một lần nữa, chúng ta vẫn có mối quan hệ phái sinh và thứ hai. Vậy tại sao Fisher không nhìn vào độ cong của hàm khả năng? Tôi nghĩ đó là vì lý do thuận tiện tương tự. Dễ dàng hơn để thao tác loglikabilities vì ​​số tiền thay vì sản phẩm. Vì vậy, anh ta có thể nghiên cứu độ cong của khả năng bằng cách phân tích đạo hàm thứ hai của loglikabilities. Mặc dù ngoại hình phương trình rất đơn giản cho độ cong , trong thực tế bạn đang dùng một hàm bậc hai của sản phẩm, đó là Messier hơn tổng các đạo hàm bậc hai.κmax=f(xmax)

CẬP NHẬT 2:

Đây là một cuộc biểu tình. Tôi vẽ một hàm khả năng (hoàn toàn tạo thành), a) độ cong và b) đạo hàm thứ 2 của nhật ký của nó. Ở phía bên trái, bạn thấy khả năng hẹp và ở phía bên phải, nó rộng. Bạn thấy làm thế nào tại điểm của khả năng tối đa a) và b) hội tụ, như họ nên. Quan trọng hơn, mặc dù, bạn có thể nghiên cứu độ rộng (hoặc độ phẳng) của hàm khả năng bằng cách kiểm tra đạo hàm thứ 2 của khả năng đăng nhập của nó. Như tôi đã viết trước đó, cái sau đơn giản hơn về mặt kỹ thuật để phân tích.

Không có gì đáng ngạc nhiên khi đạo hàm thứ 2 của tín hiệu loglikabilities có khả năng tâng bốc xung quanh mức tối đa của nó, điều không mong muốn vì nó gây ra lỗi ước lượng tham số lớn hơn.

nhập mô tả hình ảnh ở đây

Mã MATLAB trong trường hợp bạn muốn sao chép các ô:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

CẬP NHẬT 3:

Trong đoạn mã trên tôi đã cắm một số hàm hình chuông tùy ý vào phương trình độ cong, sau đó tính đạo hàm thứ hai của nhật ký của nó. Tôi đã không điều chỉnh lại bất cứ điều gì, các giá trị được chuyển thẳng từ các phương trình để hiển thị sự tương đương mà tôi đã đề cập trước đó.

Đây là bài báo đầu tiên về khả năng mà Fisher xuất bản khi còn ở trường đại học, "Về một tiêu chí tuyệt đối cho các đường cong tần số phù hợp", Messenger of Mathmatics, 41: 155-160 (1912)

Vì tôi đã khăng khăng tất cả cùng anh ấy không đề cập đến bất kỳ kết nối "sâu hơn" nào về xác suất đăng nhập với entropy và các chủ đề ưa thích khác, anh ấy cũng không đưa ra tiêu chí thông tin của mình. Anh ta chỉ cần đặt phương trình P = n 1 log p trên p.54 sau đó tiến hành nói về tối đa hóa xác suất. Theo tôi, điều này cho thấy rằng anh ta đã sử dụng logarit giống như một phương pháp thuận tiện để tự phân tích xác suất chung. Nó đặc biệt hữu ích trong việc khớp đường cong liên tục, mà anh ta đưa ra một công thức rõ ràng trên p.55: logP=1nlogp

đăng nhậpP= =-đăng nhậpfdx
P

Một điều cần lưu ý khi đọc bài báo, anh ta chỉ bắt đầu với công việc ước tính khả năng tối đa, và đã làm được nhiều việc hơn trong 10 năm sau đó, vì vậy ngay cả thuật ngữ MLE vẫn chưa được đặt ra, theo như tôi biết.


5
Câu cuối cùng của bạn (về độ cong) thực sự có một cái gì đó cơ bản về khả năng đăng nhập và việc ghi nhật ký không chỉ là một "sự tiện lợi" đơn thuần. Tôi tin rằng có nhiều thứ đang diễn ra ở đây hơn là bạn đang cho phép.
whuber

2
Thảo luận về độ cong của bạn dường như không liên quan, bởi vì nó không phân biệt phân tích khả năng ghi nhật ký với phân tích khả năng của chính nó. Câu trả lời này dường như đi xuống "nhật ký là thuận tiện", nhưng có nhiều vấn đề hơn thế, vì các câu trả lời khác đang bắt đầu đề xuất.
whuber

f(xmax)f(xmax)=1

Vì vậy, việc sử dụng khả năng ghi nhật ký cho thông tin Fisher rõ ràng phục vụ hai mục đích thực tế: (1) khả năng đăng nhập dễ dàng hơn để làm việc và (2) nó tự nhiên bỏ qua hệ số tỷ lệ tùy ý. Và, nó đưa ra câu trả lời tương tự như phái sinh thứ 2 của khả năng thẳng. Đây có vẻ là một điểm quan trọng đối với tôi, một điểm không rõ ràng và tôi chưa từng thấy được nêu trong bất kỳ văn bản thống kê nào. Có lẽ nó đã được biết đến với Fisher.
ratsalad

f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))"

5

Điểm bổ sung . Một số phân phối xác suất thường được sử dụng (bao gồm phân phối bình thường, phân phối theo cấp số nhân, phân phối Laplace, chỉ để đặt tên cho một số) là log-lõm . Điều này có nghĩa là logarit của chúng là lõm. Điều này làm cho tối đa hóa xác suất log dễ dàng hơn nhiều so với tối đa hóa xác suất ban đầu (đặc biệt tiện dụng trong khả năng tối đa hoặc phương pháp a-posteriori tối đa). Để đưa ra một ví dụ, sử dụng phương pháp của Newton để tối đa hóa phân phối Gaussian đa biến trực tiếp có thể thực hiện một số lượng lớn các bước trong khi tối đa hóa một paraboloid (nhật ký phân phối Gaussian đa biến) chỉ cần một bước.


2
Không quá nhanh. Xem bài tập 7.4 trên trang 393-394
Mark L. Stone

Đó không phải là log-lõm. Gaussian là log-lõm wrt cho đối số của nó hoặc tham số trung bình, không ghi phương sai quá. Nếu bạn cũng muốn xác định thang đo, bạn có thể sử dụng phân phối gamma bình thường, cũng là log-lõm (sử dụng độ chính xác thay vì phương sai).
Luca Citi

2
Chính xác là thế này. Tất cả các cuộc thảo luận về cách nhật ký thuận tiện hơn là tốt, nhưng độ lồi (hoặc độ lõm, tùy thuộc vào phối cảnh) là những gì thực sự phân biệt khả năng đăng nhập là điều "chính xác" để làm việc.
Meni Rosenfeld

2
Lưu ý rằng tôi đã đề cập đến log-concavity trong OP. Nhưng đây vẫn chỉ là một "sự tiện lợi", không có sự biện minh nào về mặt lý thuyết ở đây cho tính đồng nhất của log, và trong mọi trường hợp, khả năng log không phải là log-lõm nói chung.
ratsalad

1
@ratsalad, vâng, bạn nói đúng, thật tiện lợi. Tôi nghĩ rằng xác suất log là một cách bổ sung để xem xét hàm xác suất. Tôi không thể nói chắc chắn cái nào tốt hơn. Nếu bạn xem [ en.wikipedia.org/wiki/ các biện pháp), một số hoạt động hiệu quả với xác suất log (ví dụ: phân kỳ KL có hiệu quả là giá trị kỳ vọng của chênh lệch xác suất log), một số xác suất trực tiếp ( ví dụ khoảng cách KS).
Luca Citi

4

Tầm quan trọng lý thuyết của log-khả năng có thể được nhìn thấy từ (ít nhất) hai quan điểm: lý thuyết khả năng tiệm cận và lý thuyết thông tin.

Đầu tiên trong số này (tôi tin) là lý thuyết tiệm cận về khả năng đăng nhập. Tôi nghĩ rằng lý thuyết thông tin đã được tiến hành tốt sau khi Fisher đặt ra khả năng tối đa trong quá trình hướng tới sự thống trị của thế kỷ 20.

Trong lý thuyết khả năng, một khả năng log-parabol có một vị trí trung tâm trong suy luận. Lucien Le Cam đã đóng một vai trò quan trọng trong việc làm sáng tỏ tầm quan trọng của khả năng đăng nhập bậc hai trong lý thuyết tiệm cận.

Khi bạn có khả năng ghi nhật ký bậc hai, không chỉ độ cong về MLE cho bạn biết về mặt định lượng chính xác bạn có thể ước tính tham số như thế nào, mà chúng tôi còn biết rằng lỗi thường được phân phối với phương sai bằng với độ tương phản của độ cong. Khi khả năng đăng nhập xấp xỉ bậc hai, thì chúng tôi nói các kết quả này giữ xấp xỉ hoặc không có triệu chứng.

Lý do thứ hai là sự nổi bật của khả năng đăng nhập (hoặc xác suất đăng nhập) trong lý thuyết thông tin , trong đó nó là đại lượng chính được sử dụng để đo lường nội dung thông tin.

ggf(θ)f(θ^)θ^ là tối đa ước tính khả năng.

lnL^

Vì vậy, khả năng đăng nhập, ngoài việc là một phép biến đổi số hữu ích, có mối liên hệ sâu sắc với suy luận và lý thuyết thông tin.


Tài liệu tham khảo của bạn về lý thuyết thông tin sử dụng khả năng đăng nhập là thông tư. Tại sao họ sử dụng log? Có lẽ vì lý do tương tự, đặc biệt, nếu bạn coi lý thuyết thông tin đó là một lĩnh vực tương đối mới hơn so với thống kê.
Aksakal

@Aksakal có và không. Lý thuyết thông tin có nền tảng một phần từ cơ học thống kê và entropy: en.wikipedia.org/wiki/Entropy . Boltzmann đã xác định entropy của một hệ thống bằng cách sử dụng nhật ký của số lượng microstate. Tại sao lại ghi nhật ký? Bởi vì nó làm cho entropy / phụ gia thông tin (như câu trả lời của bạn chỉ ra)? Vậy thì sao? Ở cấp độ số, tuyến tính / nghiện mở ra việc sử dụng các phương pháp mạnh mẽ của đại số tuyến tính.

1
@Aksakal, tuy nhiên, ở mức độ cơ bản hơn, biến entropy / thông tin thành một thứ gì đó giống như một biện pháp ... gần giống với khối lượng. Nếu bạn kết hợp hai hệ thống độc lập thống kê, thì entropy của hệ thống kết hợp là tổng của entropy của mỗi hệ thống. Đây là một người giải thích hay: vật lý.stackexchange.com /questions / 23636 / trộm

1
@Bey entropy thống kê nhiệt động thực sự theo trực tiếp từ phân phối Boltzmann của microstates và nhiệt vĩ mô cổ điển (hình thức của entropy stat mech không phải là "sự lựa chọn"). Bản thân phân phối Boltzmann là hệ quả của hai tiền đề: (1) tính chất vật lý mà năng lượng được chỉ định tối đa là hằng số phụ gia tùy ý và (2) giả định cơ bản cho rằng tất cả các microstate có cùng năng lượng đều có cùng xác suất. Vì vậy, ở mức entropy nhiệt độ sâu nhất liên quan đến log-probs vì năng lượng là phụ gia và tỷ lệ thuận với log-prob.
ratsalad

2
@ratsalad cảm ơn bạn đã mở rộng về điều này ... như bạn có thể thấy, vượt ra ngoài những giải thích "nhật ký đơn giản" dễ dàng hơn về khả năng đăng nhập có thể mất một khoảng cách khá xa. Tôi sử dụng khả năng đăng nhập vì những lý do mà Aksakal đưa ra ... tuy nhiên, OP của bạn đã yêu cầu một cái gì đó sâu sắc hơn. Tôi đã đưa ra hai ví dụ cho thấy các kết nối đến các lĩnh vực khác có ảnh hưởng đến thống kê và khả năng lý thuyết. Tôi nghĩ rằng các giải thích tiệm cận là trực tiếp hơn, nhưng entropy và xác suất được liên kết theo cách làm cho xác suất log những thứ chúng ta quan tâm vượt ra ngoài sự thuận tiện về mặt số.

0

TLDR: Dễ dàng lấy được tổng số tiền hơn các sản phẩm, bởi vì toán tử phái sinh là tuyến tính với tính tổng nhưng với sản phẩm bạn phải thực hiện quy tắc sản phẩm. Đó là độ phức tạp tuyến tính so với một số độ phức tạp đa thức bậc cao hơn


3
Đây là những gì câu hỏi có nghĩa là "thuận tiện và thiết thực." Nó khác xa với lý do duy nhất, hoặc thậm chí là chính, tại sao phân tích tập trung vào khả năng đăng nhập. Ví dụ, hãy xem xét biểu thức cho Thông tin Fisher sẽ trông như thế nào về khả năng thay vì khả năng đăng nhập.
whuber

Vâng chắc chắn; Tôi nghĩ khi anh ấy nói "dễ dàng" hơn để tìm thấy nó trực tiếp, tôi nghĩ anh ấy có ý ngược lại với điều này, bởi vì chắc chắn sẽ dễ dàng tìm thấy nó hơn sau khi chúng tôi áp dụng chuyển đổi nhật ký.
Charlie Tian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.