Các thuật toán Machine Learning hay Deep Learning có thể được sử dụng để cải thiện quy trình lấy mẫu của kỹ thuật MCMC không?

21

Dựa trên kiến thức nhỏ mà tôi có về các phương pháp MCMC (Markov chain Monte Carlo), tôi hiểu rằng lấy mẫu là một phần quan trọng của kỹ thuật nói trên. Các phương pháp lấy mẫu thường được sử dụng là Hamilton và Đô thị.

Có cách nào để sử dụng học máy hay thậm chí học sâu để xây dựng bộ lấy mẫu MCMC hiệu quả hơn không?

— Dòng Tên
nguồn

5

Bạn có thể chỉ định loại "cải tiến" nào bạn có trong đầu và làm thế nào để bạn thấy vai trò của máy học không?

— Tim

2

Không thường, MCMC thường liên quan đến việc ước tính các giá trị từ các biểu thức không có dạng đóng đơn giản là quá phức tạp để tìm giải pháp phân tích. Có thể sử dụng phân cụm nhiều biến số (hoặc các cách tiếp cận tương tự) để ước tính mật độ đa biến đơn giản hơn, nhưng tôi sẽ thấy rằng đó là một cách thay thế cho việc sử dụng MCMC.

— AdamO

1

@AdamO, tại sao không chuyển đổi nó thành một câu trả lời? Có vẻ như nó có thể tốt như chúng ta có thể đến đây.

— gung - Phục hồi Monica

@Tim Vâng, từ những gì tôi đã đọc, MCMC rút ra các mẫu từ một phân phối để tính toán số lượng suy luận. Thuật toán MH chọn ngẫu nhiên "vị trí" và sau đó xác nhận nếu chúng được chấp nhận. Điều tôi đã tự hỏi là nếu có các kỹ thuật thay thế ML. Tôi biết điều này nghe có vẻ mơ hồ và tôi xin lỗi vì điều đó, nhưng tôi thấy MCMC hấp dẫn và tôi đang cố gắng nắm bắt lý thuyết và các ứng dụng thực tế bằng cách tự nghiên cứu.

— Jespar

1

Liên quan arxiv.org/pdf/1506.03338v3.pdf

— Chọn

27

Vâng. Không giống như những gì các câu trả lời khác nêu, các phương pháp học máy 'điển hình' như phi thần kinh và mạng lưới thần kinh (sâu) có thể giúp tạo ra các bộ lấy mẫu MCMC tốt hơn.

Mục tiêu của MCMC là vẽ các mẫu từ phân phối mục tiêu (không chuẩn hóa) . Các mẫu thu được được sử dụng để tính gần đúng và chủ yếu cho phép tính toán các kỳ vọng của các hàm theo (nghĩa là tích phân chiều cao) và đặc biệt là các thuộc tính của (chẳng hạn như khoảnh khắc). $f(x)$ $f$ $f$ $f$

Việc lấy mẫu thường đòi hỏi một số lượng lớn các đánh giá về và có thể là độ dốc của nó đối với các phương pháp như Hamiltonian Monte Carlo (HMC). Nếu tốn kém để đánh giá hoặc độ dốc không khả dụng, đôi khi có thể xây dựng hàm thay thế ít tốn kém hơn có thể giúp hướng dẫn lấy mẫu và được đánh giá thay cho (theo cách vẫn bảo tồn các thuộc tính của MCMC). $f$ $f$ $f$

Ví dụ, một bài báo chuyên đề ( Rasmussen 2003 ) đề xuất sử dụng các quy trình Gaussian (một phép tính gần đúng hàm không tham số) để xây dựng một xấp xỉ cho và thực hiện HMC trên hàm thay thế, chỉ với bước chấp nhận / từ chối của HMC dựa trên . Điều này làm giảm số lượng đánh giá của gốc và cho phép thực hiện MCMC trên pdf mà nếu không quá đắt để đánh giá. $\log f$ $f$ $f$

Ý tưởng sử dụng các chất thay thế để tăng tốc MCMC đã được khám phá rất nhiều trong vài năm qua, về cơ bản bằng cách thử các cách khác nhau để xây dựng chức năng thay thế và kết hợp nó một cách hiệu quả / thích ứng với các phương pháp MCMC khác nhau (và theo cách bảo tồn tính đúng đắn của ' 'của mẫu MCMC). Liên quan đến câu hỏi của bạn, hai bài báo gần đây này sử dụng các kỹ thuật máy học tiên tiến - mạng ngẫu nhiên ( Zhang et al. 2015 ) hoặc các hàm nhân hàm mũ được học một cách thích ứng ( Strathmann et al. 2015 ) - để xây dựng hàm thay thế.

HMC không phải là hình thức MCMC duy nhất có thể hưởng lợi từ người thay thế. Ví dụ, Nishiara et al. (2014) xây dựng xấp xỉ mật độ mục tiêu bằng cách khớp phân phối của Sinh viên đa biến với trạng thái đa chuỗi của bộ lấy mẫu đồng bộ và sử dụng phương pháp này để thực hiện một hình thức lấy mẫu lát cắt hình elip tổng quát . $t$

Đây chỉ là những ví dụ. Nói chung, một số kỹ thuật ML riêng biệt (chủ yếu trong lĩnh vực xấp xỉ hàm và ước tính mật độ) có thể được sử dụng để trích xuất thông tin có thể cải thiện hiệu quả của bộ lấy mẫu MCMC. Họ thực sự hữu dụng - ví dụ như đo bằng số "mẫu độc lập hiệu quả cho mỗi thứ hai" - là điều kiện trên là đắt tiền hoặc hơi khó để tính toán; Ngoài ra, nhiều trong số các phương pháp này có thể yêu cầu điều chỉnh kiến thức của riêng họ hoặc bổ sung, hạn chế khả năng áp dụng của chúng. $f$

Tài liệu tham khảo:

Rasmussen, Carl Edward. "Các quy trình Gaussian để tăng tốc độ lai Monte Carlo cho các tích hợp Bayes đắt tiền." Thống kê Bayes 7. 2003.
Zhang, Cheng, Babak Shahbaba và Hongkai Zhao. "Gia tốc Hamilton Hamilton sử dụng các chức năng thay thế với các căn cứ ngẫu nhiên." bản in sẵn arXiv arXiv: 1506.05555 (2015).
Strathmann, Heiko, et al. "Hamiltonian Monte Carlo không có Gradient với các gia đình hàm mũ hiệu quả." Những tiến bộ trong hệ thống xử lý thông tin thần kinh. 2015.
Nishihara, Robert, Iain Murray và Ryan P. Adams. "MCMC song song với lấy mẫu lát elip tổng quát." Tạp chí nghiên cứu máy học 15.1 (2014): 2087-2112.

— lacerbi
nguồn

2

Tôi không chắc các phương pháp bạn đã liệt kê thực sự nằm trong danh mục "phương pháp học máy", thay vì chỉ là các phương pháp MCMC tiêu chuẩn (mặc dù đây là phương pháp mờ nhất trong các dòng). Phương pháp duy nhất chắc chắn là phương thức ML / DL là 3, từ đó đã loại bỏ "mạng thần kinh" khỏi tiêu đề của nó (và dường như thừa nhận trong văn bản rằng sử dụng các phương thức ML tiêu chuẩn sẽ quá chậm).

— Vách đá AB

2

@CliffAB cảm ơn. Tôi đồng ý rằng dòng là một chút mờ cho một số trong những phương pháp (ví dụ: 4 sử dụng một cách đơn giản sinh viên fit - nhưng phương pháp của họ có thể sử dụng một số kỹ thuật ước lượng mật độ phức tạp hơn). Đối với phần còn lại, tốt, nó phụ thuộc vào việc bạn xem xét xấp xỉ hàm (không tính toán), chẳng hạn như GP, hoặc ước tính mật độ, kỹ thuật ML hay không. Nếu bạn không, đủ công bằng, nhưng tôi không chắc kỹ thuật ML là gì . (OP yêu cầu các kỹ thuật ML hoặc DL để cải thiện MCMC.)

t

$t$

— lacerbi 18/07/2016

1

Cảm ơn bạn rất nhiều @lacerbi. Tôi vui vì tôi có thể sử dụng tài liệu tham khảo của bạn làm nền tảng để nghiên cứu thêm.

— Jespar

6

Một phương pháp có thể kết nối hai khái niệm đó là thuật toán đa biến của Metropolis Hastings. Trong trường hợp này, chúng tôi có phân phối mục tiêu (phân phối sau) và phân phối đề xuất (thường là phân phối bình thường hoặc phân phối t).

Một thực tế nổi tiếng là phân phối đề xuất càng xa phân phối sau, bộ lấy mẫu càng kém hiệu quả. Vì vậy, người ta có thể tưởng tượng bằng cách sử dụng một số loại phương pháp học máy để xây dựng phân phối đề xuất phù hợp hơn với phân phối sau đúng hơn so với phân phối bình thường / t đa biến đơn giản.

Tuy nhiên, không rõ điều này sẽ cải thiện hiệu quả. Bằng cách gợi ý học tập sâu, tôi cho rằng bạn có thể quan tâm đến việc sử dụng một số cách tiếp cận mạng thần kinh. Trong hầu hết các trường hợp, điều này sẽ đắt hơn đáng kể về mặt tính toán so với toàn bộ phương pháp MCMC vanilla. Tương tự, tôi không biết bất kỳ lý do nào mà các phương pháp NN (hoặc thậm chí hầu hết các phương pháp học máy) làm tốt công việc cung cấp mật độ đầy đủ bên ngoài không gian quan sát, rất quan trọng đối với MCMC. Vì vậy, ngay cả khi bỏ qua các chi phí tính toán liên quan đến việc xây dựng mô hình học máy, tôi không thể thấy một lý do chính đáng tại sao điều này sẽ cải thiện hiệu quả lấy mẫu.

— Vách đá AB
nguồn

Cliff AB Tôi cảm thấy rằng bạn và @AdamO đã làm rõ các khái niệm MCMC và ML cho tôi hơn là dành hàng giờ cho một cuốn sách khác. Tôi đánh giá cao những nỗ lực của bạn và tôi rất vui vì bạn đã đề cập đến một số lĩnh vực mà tôi có thể nghiên cứu sâu hơn.

— Jespar 18/07/2016

@Sitherion bạn đang đề cập đến cuốn sách nào?

— AdamO

@AdamO Hiện tại tôi đang đọc Học tăng cường của Richard Sutton và Học máy: Một quan điểm xác suất của Kevin Murphy có chứa một chương MCMC; và các ấn phẩm từ các tạp chí Thống kê ML và Tính toán khác nhau.

— Jespar

3

Machine Learning liên quan đến dự đoán, phân loại hoặc phân cụm trong một cài đặt được giám sát hoặc không giám sát. Mặt khác, MCMC chỉ đơn giản là quan tâm đến việc đánh giá một giao thoa phức tạp (thường không có dạng đóng) bằng các phương pháp số xác suất. Lấy mẫu đô thị chắc chắn không phải là phương pháp được sử dụng phổ biến nhất. Trên thực tế, đây là phương pháp MCMC duy nhất không có bất kỳ thành phần xác suất nào. Vì vậy ML sẽ không thông báo bất cứ điều gì với MCMC trong trường hợp này.

Lấy mẫu dựa trên tầm quan trọng không yêu cầu một thành phần xác suất. Nó hiệu quả hơn so với đô thị theo một số giả định cơ bản. Các phương pháp ML có thể được sử dụng để ước tính thành phần xác suất này nếu nó phù hợp với một số giả định. Các ví dụ có thể là phân cụm nhiều biến số để ước tính mật độ Gaussian chiều cao phức tạp. Tôi không quen thuộc với các cách tiếp cận phi tham số cho vấn đề này, nhưng đó có thể là một lĩnh vực phát triển thú vị.

Tuy nhiên, ML nổi bật với tôi như một bước khác biệt trong quá trình ước tính mô hình xác suất phức tạp chiều cao, sau đó được sử dụng trong phương pháp số. Tôi không thấy ML thực sự cải thiện MCMC như thế nào trong trường hợp này.

— Adam
nguồn

Cảm ơn bạn @AdamO, ít nhất bây giờ tôi đã hiểu rõ hơn về lĩnh vực này.

— Jespar

1

Tôi nghĩ rằng câu trả lời này không đầy đủ và có thể không chính xác (tùy theo cách giải thích câu hỏi thực tế của OP, điều này không hoàn toàn rõ ràng). Các phương pháp ML điển hình như mạng không đối xứng và mạng nơ ron có thể và được sử dụng để cải thiện bộ lấy mẫu MCMC. Trong thực tế, nó là một lĩnh vực hoạt động nghiên cứu. Xem câu trả lời của tôi và tham khảo trong đó để bắt đầu.

— lacerbi

1

@lacerbi câu trả lời của bạn là một câu hỏi hay, và tôi muốn nói rằng OP nên đọc những bài viết này để họ chiếu sáng bất kể câu hỏi của họ có thể là gì. Tôi muốn nói rằng các kết quả trong câu trả lời của bạn dựa trên định nghĩa của tôi về MCMC là một phương pháp để đánh giá các tích phân phức tạp bằng cách sử dụng một thành phần xác suất. Tuy nhiên, họ không kết hợp học máy hoặc học sâu, mà nên (ít nhất là) xử lý các trường hợp trong đó rất, rất lớn.

p

$p$

— AdamO

Cảm ơn @AdamO. Tuy nhiên, thành thật mà nói, tôi không hiểu lời giải thích của bạn hoặc cách nó làm cho câu trả lời của bạn chính xác. Ví dụ: tôi không hiểu ý của bạn khi bạn nói rằng "Thành phố không có thành phần xác suất". Ngoài ra, bạn nói rằng ML không thể giúp lấy mẫu, điều này đơn giản là không đúng sự thật (ngay cả trong định nghĩa hẹp của lấy mẫu là ước tính của tích phân chiều cao), như câu trả lời của tôi cho thấy.

— lacerbi

3

@AdamO: Các quy trình Gaussian, phương thức kernel, mạng cơ sở ngẫu nhiên. Nói chung, bất kỳ hình thức xấp xỉ hàm hoặc ước tính mật độ sẽ hoạt động. Nếu đây không phải là phương thức ML, tôi không chắc đó là gì ... (xin lưu ý rằng OP đã yêu cầu phương thức ML hoặc DL). Ngoài ra, như tôi đã hỏi ở trên, bạn có thể vui lòng giải thích ý của bạn khi bạn viết rằng Metropolis không có thành phần xác suất không? Cảm ơn!

— lacerbi

0

Có một số công trình gần đây trong vật lý tính toán trong đó các tác giả đã sử dụng Máy Boltzmann bị hạn chế để mô hình phân phối xác suất và sau đó đề xuất (hy vọng) cập nhật hiệu quả Monte Carlo arXiv: 1610.02746 . Ý tưởng ở đây hóa ra khá giống với các tài liệu tham khảo được đưa ra bởi @lacerbi ở trên.

Trong một nỗ lực khác 1702.08586 , tác giả đã xây dựng rõ ràng Boltzmann Machines có thể thực hiện (và thậm chí khám phá) cụm cập nhật nổi tiếng Monte Carlo .

— Lôi Vương
nguồn