Mối liên hệ giữa thống kê Bayes và mô hình thế hệ


15

Ai đó có thể giới thiệu cho tôi một tài liệu tham khảo tốt giải thích mối liên hệ giữa thống kê Bayes và kỹ thuật mô hình hóa thế hệ không? Tại sao chúng ta thường sử dụng các mô hình thế hệ với các kỹ thuật Bayes?

Tại sao nó đặc biệt hấp dẫn để sử dụng số liệu thống kê Bayes trong trường hợp không có dữ liệu đầy đủ, nếu có?

Lưu ý rằng tôi đến từ một quan điểm định hướng học máy nhiều hơn và tôi thích đọc thêm về nó từ cộng đồng thống kê.

Bất kỳ tài liệu tham khảo tốt nào thảo luận về những điểm này sẽ được đánh giá rất cao. Cảm ơn.


Tôi đã khám phá về sự khác biệt cơ bản giữa các phương thức chuyển đổi thích nghi và khái quát. Có vẻ như Bayesian phù hợp như một mô hình thống kê để nghiên cứu thích ứng nhưng không mang tính khái quát. Cần phải đi đến kết luận này một cách tự tin hơn.

1
Xin chào Srinidhi, chào mừng đến với trang web. Đây là một câu hỏi và trang web trả lời. Bạn có thể vui lòng xây dựng lại nhận xét của bạn thành một câu hỏi? Ngoài ra, câu hỏi càng cụ thể thì càng có nhiều khả năng nhận được câu trả lời hữu ích.
ness101

Câu trả lời:


12

Trong máy học, mô hình xác suất đầy đủ p (x, y) được gọi là thế hệ vì nó có thể được sử dụng để tạo dữ liệu trong khi mô hình có điều kiện p (y | x) được gọi là phân biệt đối xử vì nó không chỉ định mô hình xác suất cho p (x ) và chỉ có thể tạo y cho x. Cả hai có thể được ước tính trong thời trang Bayes.

Ước lượng Bayes vốn dĩ là về việc chỉ định một mô hình xác suất đầy đủ và thực hiện suy luận có điều kiện trên mô hình và dữ liệu. Điều đó làm cho nhiều mô hình Bayes có một cảm giác rộng rãi. Tuy nhiên, đối với người Bayes, sự khác biệt quan trọng không phải là quá nhiều về cách tạo dữ liệu, mà là về những gì cần thiết để có được sự phân phối sau của các tham số quan tâm chưa biết.

Mô hình phân biệt p (y | x) là một phần của mô hình lớn hơn trong đó p (y, x) = p (y | x) p (x). Trong nhiều trường hợp, p (x) không liên quan đến phân phối sau của các tham số trong mô hình p (y | x). Cụ thể, nếu các tham số của p (x) khác với p (y | x) và các mục tử là độc lập, thì mô hình p (x) không chứa thông tin về các tham số chưa biết của mô hình có điều kiện p (y | x), vì vậy một Bayes không cần phải mô hình hóa nó.


Ở cấp độ trực quan hơn, có một liên kết rõ ràng giữa "tạo dữ liệu" và "tính toán phân phối sau". Rubin (1984) đưa ra mô tả xuất sắc sau đây về liên kết này:

nhập mô tả hình ảnh ở đây


Số liệu thống kê Bayes hữu ích khi cung cấp dữ liệu bị thiếu chủ yếu vì nó cung cấp một cách thống nhất để loại bỏ các tham số phiền toái - tích hợp. Thiếu dữ liệu có thể được coi là (nhiều) tham số phiền toái. Các đề xuất thay thế như cắm vào giá trị dự kiến ​​thường sẽ hoạt động kém vì chúng ta hiếm khi ước tính các ô dữ liệu bị thiếu với độ chính xác cao. Ở đây, tích hợp tốt hơn tối đa hóa.

Các mô hình phân biệt đối xử như p (y | x) cũng trở nên có vấn đề nếu x bao gồm dữ liệu bị thiếu vì chúng tôi chỉ có dữ liệu để ước tính p (y | x_obs) nhưng hầu hết các mô hình hợp lý đều được viết đối với dữ liệu hoàn chỉnh p (y | x). Nếu bạn có một mô hình xác suất đầy đủ p (y, x) và là Bayes, thì bạn vẫn ổn vì bạn chỉ có thể tích hợp trên dữ liệu còn thiếu như bất kỳ số lượng không xác định nào khác.


2

@Tristan: Hy vọng bạn không bận tâm đến việc tôi làm lại câu trả lời của bạn khi tôi đang làm việc để làm cho điểm chung càng minh bạch càng tốt.

Đối với tôi, chínhcái nhìn sâu sắc trong thống kê là khái niệm hóa các quan sát lặp đi lặp lại khác nhau - như được tạo ra bởi một mô hình tạo xác suất, chẳng hạn như Bình thường (mu, sigma). Đầu những năm 1800, các mô hình tạo xác suất được giải trí thường chỉ là do lỗi đo lường với vai trò của các tham số, chẳng hạn như mu và sigma và các thầy tu cho chúng bị nhầm lẫn. Các cách tiếp cận thường xuyên lấy các tham số là cố định và không xác định và do đó các mô hình tạo xác suất sau đó chỉ liên quan đến các quan sát có thể. Phương pháp tiếp cận Bayes (với các linh mục phù hợp) có các mô hình tạo xác suất cho cả các tham số chưa biết có thể và các quan sát có thể. Các mô hình tạo xác suất chung này chiếm toàn diện cho tất cả - để đặt nó một cách tổng quát hơn - những ẩn số có thể có (như tham số) và đã biết (như quan sát). Như trong liên kết từ Rubin bạn đã đưa ra,

Điều này thực sự đã được Galton miêu tả rất rõ ràng trong một quincunx hai giai đoạn vào cuối năm 1800, s. Xem hình 5> Stigler, Stephen M. 2010. Darwin, Galton và thống kê

giác ngộ. Tạp chí của Hiệp hội Thống kê Hoàng gia: Dòng A 173 (3): 469-482 . .

Nó tương đương nhưng có lẽ minh bạch hơn

posterior = trước (những điều chưa biết có thể | những điều có thể biết = những điều đã biết)

hơn hậu thế ~ trước (những điều chưa biết có thể) * p (những điều có thể biết = những điều đã biết | những điều chưa biết có thể)

Không có gì mới đối với các giá trị bị thiếu trước đây vì người ta chỉ thêm các ẩn số có thể có cho một mô hình xác suất tạo ra các giá trị bị thiếu và xử lý thiếu chỉ là một trong những điều đã biết có thể (tức là quan sát thứ 3 bị thiếu).

Gần đây, tính toán Bayesian (ABC) gần đúng đã thực hiện phương pháp mô phỏng hai giai đoạn mang tính xây dựng này một cách nghiêm túc khi p (có thể biết = biết được | những ẩn số có thể) không thể thực hiện được. Nhưng ngay cả khi điều này có thể được giải quyết và người sau có thể dễ dàng lấy được từ lấy mẫu MCMC (hoặc ngay cả khi hậu thế có sẵn trực tiếp do được liên hợp trước), quan điểm của Rubin về việc xây dựng mẫu hai giai đoạn này cho phép dễ hiểu hơn, không nên bỏ qua.

Chẳng hạn, tôi chắc chắn rằng nó đã bắt được những gì @Zen đã làm ở đây Bayesians: nô lệ của chức năng khả năng? bởi vì người ta sẽ cần phải vẽ một c chưa biết có thể từ một (giai đoạn một) trước đó và sau đó rút ra một (dữ liệu) có thể có mà c (giai đoạn 2) không thể là một thế hệ ngẫu nhiên như p (có thể biết là | c) không phải là một xác suất ngoại trừ một và chỉ một c.

Từ @Zen, Unfortunatelly, nói chung, đây không phải là mô tả hợp lệ của mô hình thống kê. Vấn đề là, theo định nghĩa,fXTôi|C(|c) phải là mật độ xác suất cho hầu hết mọi giá trị có thể củac, nói chung, rõ ràng là sai.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.