Lý do mà chức năng khả năng không phải là pdf là gì?


57

Lý do mà hàm khả năng không phải là pdf (hàm mật độ xác suất) là gì?


6
Các hàm likelihood là một chức năng của tham số chưa biết (lạnh trên dữ liệu). Như vậy, nó thường không có vùng 1 (nghĩa là tích phân trên tất cả các giá trị có thể có của θ không phải là 1) và do đó theo định nghĩa không phải là pdf. θθ
MånsT

3
Câu hỏi tương tự trên MO 2 năm trước: mathoverflow.net/questions/10971/iêu
Douglas Zare

3
Tài liệu tham khảo thú vị, @Doumund. Các câu trả lời khá không thỏa đáng, IMHO. Người được chấp nhận giả định những điều không đúng ("cả p ( m | X ) đều là pdf": không !) Và những người khác không thực sự gặp phải các vấn đề thống kê. p(X|m)p(m|X)
whuber

2
+1 người đánh bóng. Điều này thật đáng kinh ngạc khi có những câu trả lời rất tệ trong trang web mathoverflow mặc dù mức độ toán học rất cao của nó!
Stéphane Laurent

1
@Stephane: Điều này là đúng, nhưng các nhà thống kê và thậm chí cả xác suất dường như khá ít và xa giữa MO, với một số ngoại lệ đáng chú ý. Câu hỏi đó xuất phát từ khá sớm trong sự tồn tại của MO khi cả hai câu hỏi thường được chấp nhận và chất lượng câu trả lời đều khác nhau đáng kể.
Đức hồng y

Câu trả lời:


61

Chúng ta sẽ bắt đầu với hai định nghĩa:

  • Hàm mật độ xác suất (pdf) là hàm không âm tích hợp với .1

  • Khả năng được định nghĩa là mật độ chung của dữ liệu được quan sát như là một hàm của tham số. Nhưng, như được chỉ ra bởi tham chiếu đến Lehmann được tạo bởi @whuber trong một bình luận bên dưới, hàm khả năng chỉ là một hàm của tham số, với dữ liệu được giữ dưới dạng hằng số cố định. Vì vậy, thực tế rằng nó là một mật độ như là một chức năng của dữ liệu là không liên quan.

Do đó, hàm khả năng không phải là pdf vì tích phân của nó đối với tham số không nhất thiết phải bằng 1 (và thực tế có thể không thể tích hợp được, như được chỉ ra bởi một nhận xét khác từ @whuber).

Để thấy điều này, chúng tôi sẽ sử dụng một ví dụ đơn giản. Giả sử bạn có một quan sát duy nhất, , từ phân phối B e r n o u l l i ( θ ) . Sau đó, chức năng khả năng làxBernoulli(θ)

L(θ)=θx(1θ)1x

Đó là một thực tế là . Cụ thể, nếu x = 1 , sau đó L ( θ ) = θ , vì vậy 1 0 L ( θ ) d θ = 1 0 θ d θ = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

và một phép tính tương tự được áp dụng khi . Do đó, L ( θ ) không thể là hàm mật độ.x=0L(θ)

Có lẽ thậm chí còn quan trọng hơn ví dụ kỹ thuật này cho thấy tại sao khả năng không phải mật độ xác suất là chỉ ra rằng khả năng đó không phải là xác suất của giá trị tham số là chính xác hay bất cứ điều gì tương tự - đó là xác suất (mật độ) của dữ liệu đưa ra giá trị tham số , đó là một điều hoàn toàn khác. Do đó, người ta không nên mong đợi hàm khả năng hoạt động giống như mật độ xác suất.


12
dθψ=log(θ/(1θ))

3
Đó là một cách để đặt nó: MLE là bất biến dưới các phép biến đổi đơn điệu nhưng mật độ xác suất thì không, QED! Đây chính xác là lý lẽ của Fisher, mà tôi đã phác thảo trong một bình luận cho câu trả lời của @Michael Chernick.
whuber

4
dθσ

1
Df

1
(+1) Hãy để tôi là người đầu tiên chúc mừng bạn đạt được 10 nghìn đại diện! Câu trả lời tốt đẹp; Tôi thích ví dụ bạn đưa ra, đặc biệt. Chúc mừng. :)
Đức hồng y

2

Được rồi nhưng hàm likelihood là mật độ xác suất chung cho các dữ liệu quan sát được các tham số . Vì vậy, nó có thể được chuẩn hóa để tạo thành một hàm mật độ xác suất. Vì vậy, nó về cơ bản giống như một pdf.θ


3
Vì vậy, bạn chỉ cần chỉ ra rằng khả năng có thể tích hợp đối với tham số (điều đó có luôn đúng không?). Tôi cho rằng bạn có thể ám chỉ đến mối quan hệ của khả năng phân phối sau khi sử dụng căn hộ trước, nhưng không cần giải thích thêm câu trả lời này vẫn còn là bí ẩn đối với tôi.
Macro

6
Tích hợp để thống nhất là bên cạnh điểm. Fisher, trong một bài báo năm 1922 về các nền tảng toán học của thống kê lý thuyết, đã nhận thấy rằng thực sự thường khả năng có thể được "bình thường hóa" để tích hợp vào sự thống nhất khi nhân với một hàm thích hợp sao cho . Điều ông phản đối là sự độc đoán : có nhiều làm việc. "... xác suất từ ​​được sử dụng sai trong kết nối như vậy: xác suất là tỷ lệ tần số và về tần số của các giá trị như vậy, chúng ta không thể biết gì cả." L(θ)p(θ)L(θ)p(θ)dθ=1p
whuber

1
@ Néstor (và Michael) - có vẻ như cả whuber và tôi đều giải thích câu hỏi này là hỏi tại sao khả năng không phải là hàm mật độ, vì là hàm củaθ nên có vẻ như chúng tôi đang trả lời các câu hỏi khác nhau. Tất nhiên khả năng là hàm mật độ của các quan sát (được đưa ra giá trị tham số) - đó là cách nó được xác định.
Macro

2
Michael, tôi nghĩ rằng chúng tôi đã giải thích nó theo cách đó bởi vì khả năng là một chức năng của vì vậy, nếu đó là mật độ, thì đó sẽ là mật độ trong . Tôi có thể tưởng tượng việc diễn giải nó theo cách bạn có nhưng khả năng đó đã không xảy ra với tôi cho đến khi đọc bình luận của Nestor. θθ
Macro

4
Tôi thấy sự mơ hồ được tạo ra bởi câu trả lời này nhưng không có trong câu hỏi. Như @Macro chỉ ra, khả năng là một chức năng duy nhất của tham số. ( Ví dụ: "Mật độ , được coi là cố định là một hàm của , được gọi là hàm khả năng : EL Lehmann, Lý thuyết ước tính điểm , phần 6.2 .) Vì vậy, câu hỏi là rõ ràng. Trả lời, sau đó, "khả năng là mật độ xác suất chung" không làm rõ nhưng nhầm lẫn vấn đề.f(x1,θ)f(xn,θ)xθ
whuber

1

Tôi không phải là một nhà thống kê, nhưng tôi hiểu rằng mặc dù chức năng khả năng không phải là một tệp PDF liên quan đến (các) tham số, nhưng nó có liên quan trực tiếp đến PDF theo Quy tắc Bayes. Hàm khả năng, P (X | theta) và phân phối sau, f (theta | X), được liên kết chặt chẽ; hoàn toàn không phải là "một điều hoàn toàn khác".


1
Chào mừng đến với trang web của chúng tôi! Bạn có thể tìm thấy tài liệu thú vị trong các ý kiến ​​cho các câu trả lời khác trong chủ đề này. Một số trong số họ chỉ ra lý do tại sao Quy tắc của Bayes không áp dụng trừ khi máy móc toán học bổ sung được giới thiệu rõ ràng (chẳng hạn như trường Sigma cho tham số).
whuber

Cảm ơn @whuber. Tôi không nhận thấy bất kỳ tài liệu tham khảo nào về Quy tắc của Bayes ở đâu đó trong luồng, nhưng tôi cho rằng có những ám chỉ trong các bình luận, giả sử rằng một người đủ thông thạo xác suất cấp độ sau đại học để nhận ra chúng (mà tôi thì không). Bạn có đồng ý rằng việc đặt chức năng khả năng trong bối cảnh Quy tắc của Bayes cung cấp trực giác hữu ích cho câu hỏi của OP không?
santayana 2/2/2015

Không thể áp dụng quy tắc của Bayes nếu không giả sử phân phối xác suất cho : sự khác biệt giữa phân phối đó và phân phối dữ liệu là một chức năng của , là hầu hết mọi thứ trong luồng này. Mặc nhiên giả định rằng có, hoặc có thể, một phân phối như vậy là nguồn gốc của sự nhầm lẫn được thảo luận trong luồng nhận xét cho câu trả lời của Michael Chernick. Do đó, tôi đồng ý rằng một cuộc thảo luận rõ ràng và cẩn thận về điểm này có thể hữu ích, nhưng bất cứ điều gì thiếu rủi ro đó sẽ tạo ra sự nhầm lẫn lớn hơn. θθ
whuber

Tôi xin lỗi, thoạt nhìn, chủ đề đó dường như ít hơn một sự hiểu lầm, nhưng bây giờ tôi thấy các ý kiến ​​liên quan mà bạn đề cập đến, đặc biệt là trích dẫn của bạn về Fisher. Nhưng điều này không đi đến một cuộc tranh luận thường xuyên của Bayesian v. Không có một số lượng lớn các học viên suy luận Bayes, những người sẽ tranh luận ủng hộ phân phối xác suất cho theta? (cho dù bạn đồng ý với họ là một vấn đề khác ...)
santayana

1
Vâng, cuộc tranh luận B vs F đang rình rập ở đây. Một người thường xuyên chu đáo sẽ vui vẻ sử dụng Quy tắc của Bayes khi có cơ sở để áp dụng phân phối trước cho , nhưng công ty phụ tùng từ Bayes bằng cách từ chối rằng chúng tôi phải áp dụng trước. Chúng ta có thể lấy gợi ý từ câu hỏi này như thế nào. Thay vào đó, nếu nó hỏi "tại sao người ta có thể coi chức năng khả năng là một tệp PDF (cho các tham số)", thì điều đó sẽ dẫn dắt cuộc trò chuyện này dọc theo các dòng Bayes. Nhưng bằng cách hỏi nó theo cách tiêu cực, OP đã tìm kiếm chúng tôi để kiểm tra khả năng từ quan điểm thường xuyên. θ
whuber

1

Khả năng được xác định là , trong đó nếu f (x; θ) là hàm khối lượng xác suất , thì khả năng luôn luôn nhỏ hơn một, nhưng nếu f (x;) là hàm mật độ xác suất, thì khả năng có thể lớn hơn một, vì mật độ có thể lớn hơn một.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Thông thường các mẫu được xử lý iid, sau đó:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Hãy xem hình thức ban đầu của nó:

Theo suy luận Bayes, giữ, đó là . Lưu ý rằng ước tính khả năng tối đa coi tỷ lệ bằng chứng là trước một hằng số (xem câu trả lời của câu hỏi này ), bỏ qua những niềm tin trước đó. Khả năng có một mối tương quan tích cực với hậu thế dựa trên các thông số ước tính. có thể là pdf nhưng không phải vì chỉ là một phần của có thể truy cập được. f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL LL LL^LLL^

Ví dụ, tôi không biết phương sai trung bình và tiêu chuẩn của phân phối Gaussian và muốn có được chúng bằng cách đào tạo sử dụng nhiều mẫu từ phân phối đó. Trước tiên tôi khởi tạo ngẫu nhiên trung bình và phương sai chuẩn (xác định phân phối Gaussian), sau đó tôi lấy một mẫu và phù hợp với phân phối ước tính và tôi có thể nhận được xác suất từ ​​phân phối ước tính. Sau đó, tôi tiếp tục đặt mẫu vào và nhận được nhiều xác suất và sau đó tôi nhân các xác suất này và nhận được điểm. Loại điểm này là khả năng. Hầu như không thể là một xác suất của một pdf nhất định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.