Khả năng của Cameron chỉ được xác định theo hằng số nhân của tỷ lệ có nghĩa là gì trong thực tế?


19

Tôi đang đọc một bài báo mà các tác giả đang dẫn đầu từ một cuộc thảo luận về ước tính khả năng tối đa cho Định lý Bayes, rõ ràng là một lời giới thiệu cho người mới bắt đầu.

Như một ví dụ khả năng, chúng bắt đầu bằng phân phối nhị thức:

p(x|n,θ)= =(nx)θx(1-θ)n-x

và sau đó đăng nhập cả hai bên

(θ|x,n)= =xln(θ)+(n-x)ln(1-θ)

với lý do rằng:

"Bởi vì khả năng chỉ được xác định theo hằng số tỷ lệ nhân (hoặc hằng số phụ gia cho khả năng ghi nhật ký), nên chúng tôi có thể giải quyết ... bằng cách bỏ hệ số nhị thức và viết khả năng ghi nhật ký thay cho khả năng"

Toán học có ý nghĩa, nhưng tôi không thể hiểu những gì có nghĩa là "khả năng chỉ được xác định lên đến một hằng số nhân tương xứng" và làm thế nào điều này cho phép giảm hệ số nhị thức và đi từ p(x|n,θ) để (θ|x,n) .

Thuật ngữ tương tự đã đưa ra trong các câu hỏi khác ( ở đâyở đây ), nhưng vẫn chưa rõ thực tế, khả năng được xác định hoặc đưa thông tin lên đến một hằng số nhân. Có thể giải thích điều này trong các điều khoản của giáo dân?

Câu trả lời:


18

Vấn đề là đôi khi, các mô hình khác nhau (cho cùng một dữ liệu) có thể dẫn đến các hàm khả năng khác nhau bởi một hằng số nhân, nhưng nội dung thông tin rõ ràng phải giống nhau. Một ví dụ:

Chúng tôi mô hình các thử nghiệm Bernoulli độc lập, dẫn đến dữ liệu , mỗi dữ liệu có phân phối Bernoulli với tham số (xác suất) . Điều này dẫn đến hàm khả năng Hoặc chúng ta có thể tóm tắt dữ liệu theo biến phân phối nhị thức , có phân phối nhị thức, dẫn đến hàm khả năng , như một hàm của tham số chưa biết , tỷ lệ với hàm khả năng trước đây . Hai hàm khả năng rõ ràng chứa cùng một thông tin và sẽ dẫn đến cùng một suy luận!nX1,,Xnp

i=1npxi(1p)1xi
Y= =X1+X2++Xn
(ny)py(1-p)n-y
p

Và thực sự, theo định nghĩa, chúng được coi là chức năng khả năng tương tự.

Một quan điểm khác: quan sát rằng khi các hàm khả năng được sử dụng trong định lý Bayes, khi cần thiết cho phân tích bayes, các hằng số nhân như vậy chỉ đơn giản là hủy bỏ! vì vậy chúng rõ ràng không liên quan đến suy luận Bayes. Tương tự, nó sẽ hủy khi tính toán tỷ lệ khả năng, như được sử dụng trong các thử nghiệm giả thuyết tối ưu (bổ đề Neyman-Pearson.) Và nó sẽ không ảnh hưởng đến giá trị của các ước lượng khả năng tối đa. Vì vậy, chúng ta có thể thấy rằng trong phần lớn suy luận thường xuyên, nó không thể đóng một vai trò.

Chúng ta có thể tranh luận từ quan điểm khác. Hàm xác suất Bernoulli (sau đây chúng tôi sử dụng thuật ngữ "mật độ") ở trên thực sự là một mật độ liên quan đến phép đo, nghĩa là số đo trên các số nguyên không âm với khối lượng một cho mỗi số nguyên không âm. Nhưng chúng ta có thể đã xác định một mật độ liên quan đến một số biện pháp thống trị khác. Trong ví dụ này, điều này có vẻ (và là) nhân tạo, nhưng trong không gian lớn hơn (không gian chức năng) thì nó thực sự cơ bản! Chúng ta, với mục đích minh họa, sử dụng phân phối hình học cụ thể, được viết , với , , và Sớm. Sau đó, mật độ phân phối Bernoulli liên quan đếnλλ(0)= =1/2λ(1)= =1/4λ(2)= =1/số 8λđược cho bởi có nghĩa là Với chức năng mới, thống trị, đo lường này, hàm khả năng sẽ trở thành (với ký hiệu từ phía trên) lưu ý yếu tố phụ . Vì vậy, khi thay đổi số đo thống trị được sử dụng trong định nghĩa của hàm khả năng, sẽ xuất hiện một hằng số nhân mới, không phụ thuộc vào tham số chưa biết

fλ(x)= =px(1-p)1-x2x+1
P(X= =x)= =fλ(x)λ(x)
ΠTôi= =1npxTôi(1-p)1-xTôi2xTôi+1= =py(1-p)n-y2y+n
2y+np, và rõ ràng là không liên quan. Đó là một cách khác để xem các hằng số nhân phải không liên quan như thế nào. Đối số này có thể được khái quát bằng cách sử dụng các dẫn xuất Radon-Nikodym (vì đối số ở trên là một ví dụ về.)


"Nội dung thông tin rõ ràng phải giống nhau" Điều này chỉ đúng nếu bạn tin vào nguyên tắc khả năng!
JSK

Vâng, có thể, nhưng tôi đã chỉ ra cách nó tuân theo các nguyên tắc Bayes.
kjetil b halvorsen

@kjetilbhalvorsen Cảm ơn bạn đã trả lời chu đáo! Một điều tôi vẫn còn bối rối là tại sao khả năng phân phối bernoulli không bao gồm hệ số nhị thức. Câu trả lời của bạn cho thấy rõ lý do tại sao nó không quan trọng, nhưng tôi không hiểu tại sao nó lại không có khả năng ở nơi đầu tiên.
jvans

@jvans: Đó là do hệ số nhị thức không phụ thuộc vào tham số chưa biết, do đó không thể ảnh hưởng đến hình dạng của hàm khả năng
kjetil b halvorsen

12

Về cơ bản, điều đó có nghĩa là chỉ có giá trị tương đối của các vấn đề PDF. Chẳng hạn, PDF chuẩn (Gaussian) tiêu chuẩn là: , cuốn sách của bạn nói rằng họ có thể sử dụng Thay vào đó, , vì họ không quan tâm đến tỷ lệ, tức là .g(x)=e-x2/2c=1f(x)= =12πe-x2/2g(x)= =e-x2/2c= =12π

Điều này xảy ra bởi vì chúng tối đa hóa chức năng khả năng và và sẽ có cùng mức tối đa. Do đó, tối đa của sẽ giống như của . Vì vậy, họ không bận tâm về quy mô.g ( x ) e - x 2 / 2 f ( x )cg(x)g(x)e-x2/2f(x)


6

Tôi không thể giải thích ý nghĩa của trích dẫn, nhưng để ước tính khả năng tối đa , không quan trọng chúng ta chọn tìm tối đa hàm khả năng (được coi là một hàm của hay tối đa của trong đó là hằng số. Điều này là do chúng tôi không quan tâm đến giá trị tối đa của mà là giá trị trong đó mức tối đa này xảy ra và cả và đạt được giá trị tối đa của chúng tại cùng một θ một L ( x ; θ ) một L ( x ; θ ) θ ML L ( x ; θ ) một L ( x ; θ ) θ ML g ( ) L ( x ; θ ) g ( L ( x ; θ ) ) θ ML a lnL(x;θ)θmộtL(x;θ)mộtL(x;θ)θMLL(x;θ)mộtL(x;θ)θML. Vì vậy, hằng số nhân có thể được bỏ qua. Tương tự, chúng ta có thể chọn xem xét bất kỳ hàm đơn điệu (chẳng hạn như logarit) của hàm khả năng , xác định mức tối đa của và suy ra giá trị của từ đây. Đối với logarit, hằng số nhân trở thành hằng số phụ và điều này cũng có thể bị bỏ qua trong quá trình tìm vị trí của cực đại: được tối đa hóa tại cùng một điểm với .g()L(x;θ)g(L(x;θ))θMLmộtln ( một ) + ln ( L ( x ; θ ) ln ( L ( x ; θ )ln(một)ln(một)+ln(L(x;θ)ln(L(x;θ)

Chuyển sang ước tính xác suất hậu nghiệm (MAP) tối đa , được coi là hiện thực hóa một biến ngẫu nhiên với hàm mật độ tiên nghiệm , dữ liệu được coi là hiện thực hóa một biến ngẫu nhiên và hàm khả năng được coi là giá trị của mật độ có điều kiện của điều kiện trên ; cho biết hàm mật độ có điều kiện được đánh giá tại . CácΘ f Θ ( θ ) x X f XΘ ( xΘ = θ ) X Θ = θ x Θ f Θ X ( θ x ) = f XΘ ( xΘ = θ ) f Θ ( θ )θΘfΘ(θ)xXfX|Θ(x|Θ= =θ)XΘ= =θxmật độ hậu sinh của là trong đó chúng tôi nhận ra tử số là mật độ khớp của dữ liệu và tham số được ước tính. Điểm trong đó đạt được giá trị tối đa của nó là ước tính MAP của và, sử dụng cùng một đối số như trong đoạn văn, chúng ta thấy rằng chúng ta có thể bỏ qua ở bên phải củaΘ fX,Θ(x,θ)θMAPfΘ|X(θ|x)θ[fX(x)]-1(1)fX|Θ(x|Θ=θ)fΘ(θ)

(1)fΘ|X(θ|x)= =fX|Θ(x|Θ= =θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θBẢN ĐỒfΘ|X(θ|x)θ[fX(x)]-1(1)như một hằng số nhân giống như chúng ta có thể bỏ qua các hằng số nhân trong cả và trong . Tương tự như vậy khi khả năng đăng nhập đang được sử dụng, chúng ta có thể bỏ qua các hằng số phụ gia.fX|Θ(x|Θ= =θ)fΘ(θ)

Dòng suy nghĩ này cũng có thể được thực hiện thông qua các vịnh: Nếu bạn đặt hoặc vào định lý của Bayes không thành vấn đề, thì sẽ hủy để hậu thế giống nhau. a L aLmộtLmột
kjetil b halvorsen

5

Theo thuật ngữ của giáo dân, bạn sẽ thường tìm kiếm khả năng tối đa và và chung các điểm quan trọng.k f ( x )f(x)kf(x)


3
Vì vậy, làm và nhưng họ sẽ không có chức năng tương đương với khả năngf ( x ) + 2f(x)f(x)+2
Henry

Xin vui lòng, như Alecos Papadopoulos viết trong câu trả lời của mình, "khả năng đầu tiên là hàm mật độ xác suất chung". Do giả định iid cho các mẫu ngẫu nhiên, hàm khớp đó là sản phẩm của các hàm mật độ đơn giản, do đó các yếu tố nhân không phát sinh, bổ sung thì không.
Sergio

1
Hàm chung là một sản phẩm như vậy khi và chỉ khi dữ liệu độc lập. Nhưng MLE mở rộng đến các biến phụ thuộc, do đó, đối số sản phẩm có vẻ không thuyết phục.
whuber

1

Tôi sẽ đề nghị không bỏ qua bất kỳ thuật ngữ không đổi nào trong hàm khả năng (nghĩa là các thuật ngữ không bao gồm các tham số). Trong các trường hợp thông thường, chúng không ảnh hưởng đến về khả năng, như đã đề cập. Nhưng: argmax

Có thể có những trường hợp bất thường khi bạn sẽ phải tối đa hóa khả năng chịu mức trần - và sau đó bạn nên "nhớ" để đưa bất kỳ hằng số nào vào tính toán giá trị của nó.

Ngoài ra, bạn có thể thực hiện các thử nghiệm lựa chọn mô hình cho các mô hình không lồng nhau, sử dụng giá trị của khả năng trong quy trình - và vì các mô hình không được lồng nhau nên hai khả năng sẽ có các hằng số khác nhau.

Ngoài những điều này, câu

"Bởi vì khả năng chỉ được xác định tối đa là hằng số tỷ lệ nhân (hoặc hằng số phụ gia cho khả năng đăng nhập)"

sai , vì khả năng đầu tiênhàm mật độ xác suất chung , không chỉ là hàm "mục tiêu" bất kỳ được tối đa hóa.


3
Hmmm ... Khi đội mũ Bayes, tôi luôn nghĩ hàm khả năng là hàm mật độ có điều kiện của dữ liệu được cung cấp tham số chứ không phải là hàm mật độ xác suất chung . Vị trí tối đa của mật độ xác suất chung của dữ liệu và tham số (được coi là một hàm của tham số chưa biết ; dữ liệu được cố định) đưa ra ước tính xác suất sau (MAP) tối đa của , không ? θθθ
Dilip Sarwate

3
Tôi nghĩ bạn cần cẩn thận hơn một chút với ngôn ngữ. Khả năng là một hàm của các tham số cho một mẫu cố định, nhưng tương đương với mật độ khớp trên không gian mẫu . Đó là, Điều này sẽ tích hợp đến trên không gian mẫu, nhưng không nhất thiết là khi được tích hợp trên không gian tham số. Khi bạn nói "khả năng là mật độ, được xem như là một hàm của các tham số", điều đó làm cho âm thanh như thể bạn có nghĩa là "mật độ liên quan đến các tham số", điều đó không phải là. 1 1
L(θ|x)= =f(x|θ).
11
heropup

1
@heropup Tôi đã viết rằng nó không nhất thiết phải tích hợp vào sự thống nhất trên không gian tham số, và vì vậy, ngay lập tức, nó không thể được coi là "hàm mật độ" khi nó được xem như là "hàm của các tham số".
Alecos Papadopoulos

1
Vâng tôi biết. Quan điểm của tôi là cụm từ "Hàm khả năng là một hàm mật độ, được xem như là một hàm của các tham số" thật khó hiểu. Sẽ chính xác hơn để nói một cái gì đó như, "Hàm khả năng là một hàm của các tham số cho một mẫu cố định và tương đương (hoặc tỷ lệ) với mật độ khớp trên không gian mẫu."
heropup

1
@heropup Câu nói mong muốn của bạn rằng "Hàm khả năng ... tương đương (hoặc tỷ lệ) với mật độ khớp trên không gian mẫu" thực sự sẽ chính xác hơn nhiều nhưng không chính xác. Hàm khả năng không tương đương cũng không tỷ lệ với mật độ khớp vì "hệ số tỷ lệ" không phải là hằng số (trừ khi phân phối trước của tham số chưa biết được phân bố đồng đều trong một khoảng). Mật độ khớp là trong đó là khả năng và là phân phối trước của tham số. L f ( θ )L(x|θ)f(θ)Lf(θ)
Dilip Sarwate
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.