Có một cách tiếp cận Bayes để ước tính mật độ


22

Tôi quan tâm để ước tính mật độ của một biến ngẫu nhiên liên tục X. Một cách để làm điều này mà tôi đã học được là sử dụng Ước tính Mật độ Hạt nhân.

Nhưng bây giờ tôi quan tâm đến một cách tiếp cận Bayes dọc theo các dòng sau. Tôi ban đầu tin rằng X tuân theo phân phối F . Tôi lấy n đọc của X . Có cách tiếp cận nào để cập nhật F dựa trên bài đọc mới của tôi không?

Tôi biết tôi nghe có vẻ như đang mâu thuẫn với chính mình: Nếu tôi chỉ tin vào F là phân phối trước của mình, thì không có dữ liệu nào có thể thuyết phục tôi bằng cách khác. Tuy nhiên, giả sử FUnif[0,1] và các điểm dữ liệu của tôi giống như (0.3,0.5,0.9,1.7) . Nhìn thấy 1.7 , rõ ràng tôi không thể bám vào trước, nhưng tôi nên cập nhật nó như thế nào?

Cập nhật: Dựa trên các đề xuất trong các bình luận, tôi đã bắt đầu xem xét quy trình Dirichlet. Hãy để tôi sử dụng các ký hiệu sau:

GDP(α,H)θi|GGxi|θiN(θi,σ2)

Sau khi đóng khung vấn đề ban đầu của tôi trong ngôn ngữ này, tôi đoán tôi quan tâm đến những điều sau đây: . Làm thế nào để làm điều này?θn+1|x1,...,xn

Trong bộ ghi chú này (trang 2), tác giả đã làm một ví dụ về (Đề án Polya Urn). Tôi không chắc chắn nếu điều này có liên quan.θn+1|θ1,...,θn

Cập nhật 2: Tôi cũng muốn hỏi (sau khi xem ghi chú): làm thế nào để mọi người chọn cho DP? Có vẻ như một sự lựa chọn ngẫu nhiên. Ngoài ra, làm thế nào để mọi người chọn H trước cho DP? Nên tôi chỉ sử dụng một trước khi cho θ như trước tôi cho H ?αHθH


2
"Nếu tôi chỉ tin vào F là phân phối trước của mình, thì không có dữ liệu nào có thể thuyết phục tôi bằng cách khác." Đây là phản đề của suy luận Bayes, nó đi theo hướng của những gì bạn tin vào một mặt và thế giới, và kết hợp chúng lại với nhau và xem những gì xuất hiện. Rửa sạch, rửa sạch, lặp lại.
Alexis

Bạn có biết gì về quy trình dirichlet không?
niandra82

Bỏ qua đoạn cuối cùng của bạn: có hai lựa chọn phổ biến cho vấn đề này. Một là hỗn hợp hữu hạn của các quy tắc (bạn có thể chọn số lượng quy tắc dựa trên khả năng xác thực chéo) hoặc hỗn hợp vô hạn của các quy tắc như @ niandra82 đang đề xuất. Chúng có thể được thực hiện với một cái gì đó như lấy mẫu Gibbs hoặc suy luận đa dạng .. Bạn có quen thuộc với bất kỳ phương pháp nào không?

Tôi cũng nên hỏi, làm thế nào để bạn có ý định sử dụng KDE này? Phương pháp được chọn và kích thước (vô hạn, hữu hạn) có thể phụ thuộc vào mục tiêu của bạn.

Điều này nghe có vẻ như là một vấn đề lựa chọn mô hình hoặc một vấn đề triết học. Trong thực tế, sự lựa chọn của chúng tôi về khả năng sử dụng suy luận Bayes cũng áp đặt niềm tin trước đó ...
Zoë Clark

Câu trả lời:


2

Vì bạn muốn một cách tiếp cận bayes, bạn cần phải có một số kiến ​​thức trước về điều bạn muốn ước tính. Điều này sẽ ở dạng phân phối.

Bây giờ, có một vấn đề là đây là một bản phân phối trên các bản phân phối. Tuy nhiên, điều này không có vấn đề gì nếu bạn cho rằng các bản phân phối ứng cử viên đến từ một số lớp phân phối được tham số hóa.

Ví dụ, nếu bạn muốn giả sử dữ liệu là gaussian được phân phối với phương sai không xác định nhưng phương sai đã biết, thì tất cả những gì bạn cần là ưu tiên hơn giá trị trung bình.

Ước tính MAP của tham số chưa biết (gọi nó là ) có thể tiến hành bằng cách giả sử rằng tất cả các quan sát / điểm dữ liệu là độc lập có điều kiện với tham số chưa biết. Sau đó, ước tính MAP làθ

,θ^=argmaxθ(Pr[x1,x2,...,xn,θ])

Ở đâu

.Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ]

Cần lưu ý rằng có các kết hợp cụ thể của xác suất trước và phân phối ứng viên Pr [ x | θ ] mà làm phát sinh dễ dàng (hình thức đóng cửa) cập nhật như nhiều dữ liệu hơn điểm nhận được.Pr[θ]Pr[x|θ]


1

Đối với mục đích ước tính mật độ, những gì bạn cần không phải là

.θn+1|x1,,xn

Công thức trong ghi chú θn+1|θ1,,θn

Để ước tính mật độ, bạn thực sự phải lấy mẫu từ phân phối dự đoán

π(dxn+1|x1,,xn)

Lấy mẫu từ phân phối trên có thể được thực hiện bằng các phương pháp có điều kiện hoặc bằng các phương pháp biên. Đối với các phương pháp có điều kiện, hãy xem bài báo của Stephen Walker [1]. Đối với các phương pháp cận biên, bạn nên kiểm tra tại giấy Radford Neal [2].

Đối với tham số concnetration Mike West [3] đề xuất một phương pháp suy luận trong thủ tục MCMC bao gồm phân phối có điều kiện đầy đủ cho α . Nếu bạn quyết định không cập nhật nồng độ α trong quy trình MCMC, bạn nên nhớ rằng nếu bạn chọn một giá trị lớn cho nó, thì số lượng giá trị riêng biệt được rút ra từ quy trình Dirichlet sẽ lớn hơn số lượng giá trị riêng biệt khi một số nhỏ choααα sẽ được sử dụng.α

[1] SG, Walker (2006). Lấy mẫu mô hình Hỗn hợp Dirichlet bằng các lát. Truyền thông trong thống kê (Mô phỏng và tính toán).

[2] RM, Neal (2000) Phương pháp Markov Chain Monte Carlo cho các mô hình Hỗn hợp quy trình Dirichlet. Tạp chí thống kê tính toán và đồ họa. Tập 9, số 2, trang 249-265

[3] M., Tây (1992). Ước tính siêu tham số trong các mô hình hỗn hợp quá trình Dirichlet. Tường trình kỹ thuật


-1

Có cách tiếp cận nào để cập nhật F dựa trên bài đọc mới của tôi không?

Có một cái gì đó chính xác cho điều đó. Đó là khá nhiều ý tưởng chính của suy luận Bayes.

p(θ|y)αp(y|θ)p(θ)

Các p(θ) là trước của bạn, những gì bạn gọi F. Cácp(y|θ) is what Bayesians call the "likelihood" and it is the probability of observing your data given some value of theta. You just multiply them together and get what's called a "posterior" distribution of θ. This is your "updated F". Check out chapter 1 of any Intro to Bayesian Stats book.

You don't have to get rid of p(θ) (your prior), you just have to realize that it's not your best guess anymore, now that you have data to refine it.


3
This is not answering what the question is asking. OP is asking how one can put a prior on F when X1,,XniidF. Assuming our prior on F puts probability one on distributions with a density, the likelihood is L(F)=i=1NdFdx|x=xi. So we need to construct a prior on the space of distribution functions F which are differentiable (which is infinite dimensional), and OP is asking how to do this.
guy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.