Tại sao MLE có ý nghĩa, với xác suất của một mẫu riêng lẻ là 0?


13

Đây là một suy nghĩ kỳ quặc mà tôi có trong khi xem xét một số thống kê cũ và vì một số lý do tôi dường như không thể nghĩ ra câu trả lời.

Một tệp PDF liên tục cho chúng ta biết mật độ quan sát các giá trị trong bất kỳ phạm vi nào. Cụ thể, nếu XN(μ,σ2) , ví dụ, sau đó xác suất mà một thực hiện rơi giữa ab chỉ đơn giản là abϕ(x)dx nơi ϕ là mật độ của các tiêu chuẩn bình thường.

Khi chúng ta nghĩ về việc ước tính MLE của một tham số, nói về μ , chúng tôi viết mật độ chung của, nói N , biến ngẫu nhiên X1..XN và phân biệt các wrt loga để μ , thiết lập bằng 0 và giải quyết cho μ . Việc giải thích thường được đưa ra là "đưa ra dữ liệu, tham số nào làm cho hàm mật độ này hợp lý nhất".

Phần làm tôi khó chịu là đây: chúng tôi có mật độ N rv và xác suất chúng tôi nhận được một nhận thức cụ thể, ví dụ như mẫu của chúng tôi, chính xác là 0. Tại sao nó lại có ý nghĩa tối đa hóa mật độ khớp cho dữ liệu của chúng tôi ( vì một lần nữa xác suất quan sát mẫu thực tế của chúng tôi là chính xác 0)?

Sự hợp lý hóa duy nhất tôi có thể đưa ra là chúng tôi muốn làm cho PDF được đạt đỉnh nhất có thể xung quanh mẫu được quan sát của chúng tôi để tích phân trong khu vực (và do đó xác suất quan sát các thứ trong khu vực này) là cao nhất.


1
Vì lý do tương tự, chúng tôi sử dụng thống kê mật độ xác suất.stackexchange.com/q/4220/35989
Tim

Tôi hiểu (tôi nghĩ) tại sao nó có ý nghĩa để sử dụng mật độ. Điều tôi không hiểu là tại sao việc tối đa hóa mật độ có điều kiện để quan sát một mẫu có 0 xác suất xảy ra là điều hợp lý.
Alex

2
Bởi vì mật độ xác suất cho chúng ta biết những giá trị nào tương đối nhiều khả năng hơn những giá trị khác.
Tim

Nếu bạn có thời gian để trả lời câu hỏi đầy đủ, tôi nghĩ rằng điều đó sẽ hữu ích hơn cho tôi và người tiếp theo.
Alex

Bởi vì, may mắn thay, khả năng không phải là một xác suất!
AdamO

Câu trả lời:


18

Xác suất của bất kỳ mẫu, Pθ(X=x) , là bằng không và chưa một mẫu được thực hiện bằng cách vẽ từ một phân bố xác suất. Do đó xác suất là công cụ sai để đánh giá một mẫu và khả năng nó xảy ra. Khả năng thống kê, theo quy định của Fisher (1912), được dựa trên lập luận giới hạn của khả năng quan sát các mẫu x trong một khoảng thời gian dài δ khi δ đi đến zero (trích dẫn từ Aldrich, 1997) :

Aldrich, J. (1997) Khoa học thống kê12, 162-176

khi tái chuẩn hóa xác suất này bằng δ . Thuật ngữ của chức năng khả năng chỉ được giới thiệu trong Fisher (1921) và khả năng tối đa trong Fisher (1922).

Mặc dù ông đã sử dụng mệnh giá "giá trị có thể xảy ra nhất" và sử dụng nguyên tắc xác suất nghịch đảo (suy luận Bayes) với một căn hộ trước đó, Carl Friedrich Gauß đã đưa ra một ước lượng khả năng tối đa cho tham số phương sai của phân phối chuẩn. Hald (1999) đề cập đến một số lần xuất hiện khác của các công cụ ước tính khả năng tối đa trước bài báo năm 1912 của Fisher, trong đó đặt ra nguyên tắc chung.

Một sự biện minh sau này của phương pháp khả năng tối đa là, vì khả năng đăng nhập được tái chuẩn hóa của một mẫu (x1,,xn)

1ni=1nlogfθ(xi)
hội tụ tới [Luật số lớn]
E[logfθ(X)]=logfθ(x)f0(x)dx
(trong đóf0 biểu thị mật độ thực của mẫu iid), tối đa hóa khả năng [như một hàm củaθ ] tương đương với việc giảm thiểu [trongθ ] phân kỳ Kullback-Leibler
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
giữa sự phân bố thực sự của mẫu iid và gia đình của các bản phân phối đại diện bởifθ 's.


Cảm ơn câu trả lời. Bạn có thể mở rộng một chút về đối số KL không? Tôi không thấy trường hợp này xảy ra ngay lập tức.
Alex
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.