MAP là một giải pháp cho


10

Tôi đã bắt gặp những slide này (slide # 16 & # 17) trong một trong những khóa học trực tuyến. Người hướng dẫn đã cố gắng giải thích tối đa Ước tính Posterior (MAP) thực sự là giải pháp , trong đó là tham số thực.θ *L(θ)=I[θθ]θ

Ai đó có thể vui lòng giải thích làm thế nào sau đây?

Chỉnh sửa: Đã thêm các slide, trong trường hợp liên kết bị hỏng. nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Câu trả lời:


3

Từ việc xem qua các slide mà bạn đã chia sẻ, đối với tôi, ý tưởng là giải thích cách ước tính MAP có thể được sử dụng để ước tính các thuộc tính khác nhau của hậu thế, như trung bình, chế độ và trung vị. Tôi sẽ cố gắng giải thích điều này trong bối cảnh Công cụ ước tính chung Bayes như được trình bày trong cuốn sách của Stephen M. Kay, Nguyên tắc cơ bản về xử lý tín hiệu thống kê .

Hãy bắt đầu bằng cách xem xét ba loại Rủi ro (nghĩa là hàm chi phí) liên quan đến ước tính tham số θ :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0C(e)=1

e=θθ^θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

θminθθC(e)p(θ|X)dθ

Bây giờ, tùy thuộc vào mà chúng ta chọn, công cụ ước tính sẽ cung cấp cho chúng ta một thuộc tính khác nhau của hậu thế. Ví dụ: nếu chúng ta chọn trường hợp đầu tiên, , thì tối thiểu hóa cho , là giá trị trung bình. Vì câu hỏi của bạn liên quan đến chức năng chỉ báo , tôi sẽ giải quyết rủi ro thứ ba được đề cập ở trên (nếu bạn nghĩ về nó cho là tương đương để sử dụng chỉ báo).C(e)C(e)=e2θθC(e)p(θ|X)dθI[θ^θ]δ0

Đối với trường hợp 3 ở trên:

θC(e)p(θ|X)dθ=θ^δp(θ|X)dθ+θ^+δp(θ|X)dθ=1θ^+δθ^+δp(θ|X)dθ

mà đối với được thu nhỏ khi tương ứng với chế độ của hậu thế.δ0θ^


2
Cảm ơn bạn đã giải thích tuyệt vời. Ngoài ra, độc giả tương lai có thể đọc về điều tương tự trong một cuốn sách giáo khoa tương tự: Chương 5 của Machine_Learning một quan điểm xác suất của Kevin Murphy
honeybadger

Bạn có thể chỉ định chi tiết của đối số giới hạn này trong không? Bạn có nghĩa là giới hạn của thủ tục khi về 0 hoặc giới hạn tổn thất sau? δδ
Tây An

Tôi đang đề cập đến giới hạn của kỳ vọng . E[C(e)]
idnavid

10

Trong trường hợp cụ thể, không gian tham số là hữu hạn hoặc vô hạn vô hạn tổn thất sau liên quan đến mất chỉ số bằng với xác suất sai và nó được giảm thiểu khi xác suất sau là đúng được tối đa hóa. Điều này có nghĩa là là chế độ phân phối sau hoặc MAP.Θ

Θ={θ1,θ2,}
P(θ^θ|x)P(θ^=θ|x)θ^

Tuy nhiên, sự kết hợp giữa mất MAP và này là một "định lý dân gian" ở chỗ nó không chính xác trong hầu hết các cài đặt, nghĩa là nó không giữ cho các không gian tham số liên tục trong đó cho tất cả và nó mâu thuẫn hơn nữa với kết quả của Druihlet và Marin (BA, 2007), người chỉ ra rằng MAP cuối cùng phụ thuộc vào sự lựa chọn của biện pháp thống trị. (Mặc dù biện pháp Lebesgue được chọn hoàn toàn làm mặc định.)01P(θ^=θ|x)=0θ^

Chẳng hạn, Evans và Jang đã đăng một bài báo arXiv vào năm 2011 khi họ thảo luận về mối liên hệ giữa MAP, các công cụ ước tính ít bất ngờ nhất (hoặc khả năng hồ sơ tối đa) và các hàm mất mát. Cốt lõi của vấn đề là cả những người ước tính MAP và MLE đều không thực sự được chứng minh bằng cách tiếp cận lý thuyết quyết định, ít nhất là trong một không gian tham số liên tục. Và rằng biện pháp thống trị [tùy ý] được chọn trên không gian tham số ảnh hưởng đến giá trị của MAP, như được trình bày bởi Druihlet và Marin năm 2007. Chúng bắt đầu trong trường hợp hữu hạn với hàm mất

L(θ,d)=I{Ψ(θ)d)/πΨ(Ψ(θ))
trong đó họ xem xét ước lượng của biến đổi (θ) theo d, trọng số nghịch đảo của biên trước khi biến đổi này. Trong trường hợp đặc biệt của biến đổi danh tính, hàm mất mát này dẫn đến MLE là công cụ ước tính Bayes. Trong trường hợp chung, công cụ ước tính Bayes là công cụ ước tính khả năng hồ sơ tối đa (LRSE). Tuy nhiên, hàm mất mát này không khái quát thành các không gian tham số vô hạn (và rõ ràng là liên tục) và trong các cài đặt như vậy, các tác giả chỉ có thể cung cấp các LRSE như giới hạn của các thủ tục Bayes. Hàm mất được áp dụng trong trường hợp đếm được là ví dụ
L(θ,d)=I{Ψ(θ)d}/max{η,πΨ(Ψ(θ))}
với giới hạn giảm về không. Trong trường hợp liên tục, chỉ báo không còn hoạt động nữa, do đó, sự lựa chọn của các tác giả là loại bỏ khoảng trống (Θ) bằng một lựa chọn cụ thể của một phân vùng các quả bóng có đường kính về không. Theo tinh thần của Druihlet và Marin, sự lựa chọn này phụ thuộc vào một số liệu (và các điều kiện đều đặn hơn). Hơn nữa, bản thân LRSE không phụ thuộc vào phiên bản được chọn cho mật độ (nếu không dựa trên thước đo thống trị), trừ khi một áp đặt ở mọi nơi đẳng thức Bayes ở mọi nơi, khi và
maxψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ
theo tinh thần của bài báo nghịch lý Savage-Dickey của chúng tôi .

Robert Bassett và Julio Deride đã tạo ra một bài báo vào năm 2016 thảo luận về vị trí của MAP trong lý thuyết quyết định của Bayes.

Chúng tôi cung cấp một ví dụ về khái niệm ước tính thường được chấp nhận của các công cụ ước tính MAP như là một giới hạn của các công cụ ước tính Bayes có tổn thất 0-1.

Các tác giả đề cập đến cuốn sách Sự lựa chọn Bayes của tôi nêu rõ tài sản này mà không cần đề phòng thêm và tôi hoàn toàn đồng ý là bất cẩn trong vấn đề này! Khó khăn là giới hạn của các maximisers không nhất thiết là maximiser của giới hạn. Bài viết bao gồm một ví dụ cho hiệu ứng này, với một ưu tiên như trên, liên quan đến phân phối lấy mẫu không phụ thuộc vào tham số. Các điều kiện đủ được đề xuất trong đó là mật độ sau gần như chắc chắn phù hợp hoặc quasiconcave.

Xem thêm một đặc tính thay thế của các công cụ ước tính MAP của Burger và Lucka như các công cụ ước tính Bayes thích hợp dưới một loại hàm mất mát khác , mặc dù là một công cụ khá giả tạo. Các tác giả của bài báo được tạo ra này bắt đầu với một khoảng cách dựa trên trước đó; được gọi là khoảng cách Bregman, có thể là khoảng cách bậc hai hoặc khoảng cách entropy tùy thuộc vào trước. Xác định hàm mất kết hợp giữa khoảng cách Bregman này và khoảng cách bậc hai

||K(u^u)||2+2Dπ(u^,u)
tạo ra MAP như công cụ ước tính Bayes. Người ta vẫn có thể tự hỏi về biện pháp thống trị nhưng cả chức năng mất và công cụ ước tính kết quả rõ ràng phụ thuộc vào sự lựa chọn của biện pháp thống trị (Sự mất mát phụ thuộc vào trước nhưng đây không phải là nhược điểm.

1

Tôi sẽ đưa ra bản tóm tắt của văn bản được đề cập về vấn đề này trong Chương 5, Thống kê Bayes, Học máy: Một viễn cảnh xác suất - của Murphy .

Giả sử chúng tôi đã quan sát một số dữ liệu và chúng tôi muốn nhận xét về phân phối sau của các tham số . Bây giờ, ước tính điểm của chế độ phân phối sau này, được biết đến rộng rãi là MAP, có những hạn chế nhất định.Xp(θ|X)

Không giống như trung bình hoặc trung bình, đây là một điểm 'không điển hình', theo nghĩa là nó không xem xét tất cả các điểm khác trong khi được ước tính. Trong trường hợp ước tính giá trị trung bình / trung bình, chúng tôi xem xét tất cả các điểm khác.

Vì vậy, như mong đợi, trong các bản phân phối sau bị lệch rất nhiều, MAP (và, bằng cách mở rộng, MLE) không thực sự đại diện cho hậu thế thực sự.

Vậy, làm thế nào để chúng tôi tóm tắt một hậu thế bằng cách sử dụng ước tính điểm như Trung bình / Trung bình / Chế độ?

Đây là nơi mọi người sử dụng lý thuyết quyết định - về cơ bản là hàm Mất , đây là tổn thất mà người ta phải chịu nếu sự thật là và là ước tính của chúng tôi. Chúng ta có thể chọn một loạt các hàm Mất và mục tiêu của chúng ta ở đây là giảm thiểu giá trị mong đợi của hàm Mất.L(θ,θ^)θθ^

Nếu hàm Mất được đặt là , chức năng Chỉ báo cho mọi lúc khi chúng ta KHÔNG THỂ ước tính sự thật, sau đó tối thiểu hóa giá trị mong đợi của hàm Mất dữ liệu wrt bằng với Tối đa hóa hàm này wrt . Từ điều này, thật trực quan để đoán rằng chế độ Posterior giảm thiểu giá trị mong đợi của chức năng mất. Các chi tiết của tính toán này có thể được nhìn thấy trong câu trả lời ở trên .Tôi ( θθ | x ) θ tôi ( θ = θ | x ) θL(θ,θ^)I(θ^θ|x)θI(θ^=θ|x)θ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.