Các tham số khả năng tối đa đi chệch khỏi phân phối sau


11

Tôi có hàm khả năng cho xác suất dữ liệu của tôi đưa ra một số tham số mô hình , mà tôi muốn ước tính. Giả sử các linh mục phẳng trên các tham số, khả năng tỷ lệ thuận với xác suất sau. Tôi sử dụng một phương pháp MCMC để lấy mẫu xác suất này.L(d|θ)dθRN

Nhìn vào chuỗi hội tụ kết quả, tôi thấy rằng các tham số khả năng tối đa không phù hợp với các phân phối sau. Ví dụ: phân phối xác suất hậu biên cho một trong các tham số có thể là , trong khi giá trị của tại điểm khả năng tối đa là , về cơ bản gần như là giá trị tối đa của đi ngang qua bộ lấy mẫu MCMC.θ0~N(μ= =0,σ2= =1)θ0θ0ML4θ0

Đây là một ví dụ minh họa, không phải kết quả thực tế của tôi. Các bản phân phối thực phức tạp hơn nhiều, nhưng một số tham số ML có giá trị p không giống nhau trong các bản phân phối sau tương ứng của chúng. Lưu ý rằng một số tham số của tôi bị giới hạn (ví dụ: ); Trong giới hạn, các linh mục luôn đồng đều.0θ11

Câu hỏi của tôi là:

  1. Là một sai lệch như vậy là một vấn đề mỗi se ? Rõ ràng tôi không mong đợi các tham số ML hoàn toàn trùng khớp với cực đại của mỗi phân phối phía sau của chúng, nhưng theo trực giác, có cảm giác như chúng cũng không nên được tìm thấy ở sâu trong đuôi. Có sự sai lệch này tự động làm mất hiệu lực kết quả của tôi?

  2. Cho dù điều này có nhất thiết có vấn đề hay không, nó có thể là triệu chứng của các bệnh lý cụ thể ở một số giai đoạn phân tích dữ liệu? Ví dụ, có thể đưa ra bất kỳ tuyên bố chung nào về việc liệu độ lệch như vậy có thể được gây ra bởi một chuỗi hội tụ không đúng, một mô hình không chính xác hoặc giới hạn quá chặt chẽ về các tham số không?

Câu trả lời:


15

Với các linh mục phẳng, hậu sinh giống hệt với khả năng lên đến hằng số. Như vậy

  1. MLE (ước tính với trình tối ưu hóa) phải giống hệt với MAP (tối đa giá trị posteriori = chế độ đa biến của hậu thế, ước tính bằng MCMC). Nếu bạn không nhận được cùng một giá trị, bạn có vấn đề với bộ lấy mẫu hoặc trình tối ưu hóa.

  2. Đối với các mô hình phức tạp, rất phổ biến là các chế độ biên khác với MAP. Điều này xảy ra, ví dụ, nếu tương quan giữa các tham số là phi tuyến. Điều này là hoàn toàn tốt, nhưng do đó các chế độ cận biên không nên được hiểu là các điểm có mật độ sau cao nhất và không được so sánh với MLE.

  3. Tuy nhiên, trong trường hợp cụ thể của bạn, tôi nghi ngờ rằng hậu thế chạy ngược lại ranh giới trước. Trong trường hợp này, phần sau sẽ không đối xứng mạnh mẽ và không có nghĩa gì để diễn giải nó theo nghĩa trung bình, sd. Không có vấn đề nguyên tắc nào với tình huống này, nhưng trong thực tế, nó thường gợi ý về việc sai chính tả kiểu mẫu, hoặc các linh mục được chọn kém.


15

Một số giải thích chung có thể có cho sự khác biệt về nhận thức này, giả sử tất nhiên không có vấn đề gì với mã hoặc định nghĩa khả năng hoặc việc thực hiện MCMC hoặc số lần lặp MCMC hoặc hội tụ của trình tối đa hóa khả năng (cảm ơn, Jacob Socolar ):

  1. NNθ|x~NN(0,TôiN)θN-22N0

  2. Mặc dù MAP và MLE thực sự bị giới hạn trong một căn hộ trước đó, mật độ biên của các tham số khác nhau của mô hình có thể có các chế độ (cận biên) khác xa với các MLE tương ứng (ví dụ, MAP).

  3. MAP là một vị trí trong không gian tham số nơi mật độ sau cao nhất nhưng điều này không truyền tải bất kỳ dấu hiệu nào về trọng lượng hoặc thể tích sau cho các vùng lân cận của MAP. Một cành rất mỏng không có trọng lượng sau. Đây cũng là lý do tại sao việc thăm dò MCMC về một hậu thế có thể gặp khó khăn trong việc xác định chế độ sau.

  4. Thực tế là hầu hết các tham số bị giới hạn có thể dẫn đến một số thành phần của MAP = MLE xảy ra tại một ranh giới.

Xem, ví dụ, Druihlet và Marin (2007) để biết các lập luận về bản chất phi Bayes của các công cụ ước tính MAP. Một là sự phụ thuộc vào các công cụ ước tính này vào biện pháp thống trị, một điều nữa là sự thiếu bất biến dưới sự xác định lại (không giống như MLE).

Như một ví dụ về điểm 1 ở trên, đây là một mã R ngắn

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

bắt chước một chuỗi đô thị đi bộ ngẫu nhiên trong kích thước N = 100. Giá trị của khả năng đăng nhập tại MAP là -91,89, nhưng khả năng truy cập không bao giờ đến gần:

> range(lik)
[1] -183.9515 -126.6924

được giải thích bởi thực tế là chuỗi không bao giờ đến gần quan sát:

> range(dis)
[1]  69.59714 184.11525

3
Tôi chỉ nói thêm rằng ngoài việc lo lắng về mã hoặc khả năng định nghĩa hoặc triển khai MCMC, OP cũng có thể lo lắng về việc liệu phần mềm được sử dụng để lấy ước tính ML có bị kẹt trong tối ưu cục bộ hay không. stats.stackexchange.com/questions/384528/ Mạnh
Jacob Socolar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.