Làm thế nào để tính toán sự lúng túng của việc nắm giữ với Phân bổ Dirichlet tiềm ẩn?


18

Tôi bối rối về cách tính toán sự lúng túng của một mẫu nắm giữ khi thực hiện Phân bổ Dirichlet tiềm ẩn (LDA). Các bài viết về chủ đề này khoe về nó, khiến tôi nghĩ rằng tôi đang thiếu một cái gì đó rõ ràng ...

Perplexity được xem là thước đo hiệu suất tốt cho LDA. Ý tưởng là bạn giữ một mẫu giữ, huấn luyện LDA của bạn trên phần còn lại của dữ liệu, sau đó tính toán mức độ khó hiểu của khoản giữ.

Sự bối rối có thể được đưa ra theo công thức:

per(Dtest)=exp{d=1Mlogp(wd)d=1MNd}

(Lấy từ truy xuất hình ảnh trên cơ sở dữ liệu hình ảnh quy mô lớn, Horster và cộng sự )

Ở đây là số lượng tài liệu (trong mẫu thử nghiệm, có lẽ), đại diện cho các từ trong tài liệu , số lượng từ trong tài liệu .w d d N d dMwddNdd

Tôi không rõ làm thế nào để làm sáng tỏ một cách hợp lý , vì chúng tôi không có hỗn hợp chủ đề cho các tài liệu được tổ chức. Lý tưởng nhất, chúng tôi sẽ tích hợp trên Dirichlet trước cho tất cả các hỗn hợp chủ đề có thể và sử dụng đa thức chủ đề mà chúng tôi đã học. Tính tích phân này dường như không phải là một nhiệm vụ dễ dàng.p(wd)

Ngoài ra, chúng tôi có thể cố gắng tìm hiểu một hỗn hợp chủ đề tối ưu cho mỗi tài liệu được tổ chức (đưa ra các chủ đề đã học) và sử dụng điều này để tính toán sự bối rối. Điều này có thể thực hiện được, tuy nhiên nó không tầm thường như các bài báo như Horter et al và Blei et al dường như đề xuất, và tôi không rõ ràng ngay lập tức rằng kết quả sẽ tương đương với trường hợp lý tưởng ở trên.

Câu trả lời:


17

Đây thực sự là một cái gì đó thường được che đậy.

Một số người đang làm điều gì đó hơi táo tợn: đưa ra một tỷ lệ các từ trong mỗi tài liệu và đưa ra cách sử dụng xác suất dự đoán của những từ được đưa ra này cho các hỗn hợp chủ đề tài liệu cũng như các hỗn hợp từ chủ đề. Điều này rõ ràng là không lý tưởng vì nó không đánh giá hiệu suất trên bất kỳ tài liệu lưu trữ nào.

Để làm điều đó đúng với các tài liệu được tổ chức, như đã đề xuất, bạn cần phải "tích hợp trên Dirichlet trước cho tất cả các hỗn hợp chủ đề có thể". http://people.cs.umass.edu/~wallach/talks/ev Assessment.pdf xem xét một số phương pháp để giải quyết tích phân hơi khó chịu này. Thực tế, tôi chỉ đang cố gắng tự mình thực hiện điều này, thật may mắn!


3
Cảm ơn đã nạo vét câu hỏi này! Wallach et al cũng có một bài viết về đánh giá mô hình chủ đề: Phương pháp đánh giá cho các mô hình chủ đề
drevicko

1
Đừng lo lắng. Tôi đã tìm thấy một số mã cho phương pháp từ trái sang phải của Wallach trong hộp công cụ mô hình hóa chủ đề MALLET, nếu bạn vui lòng sử dụng triển khai LDA của họ thì đó là một chiến thắng dễ dàng mặc dù có vẻ không dễ để chạy nó trên một bộ về các chủ đề được học ở nơi khác từ một biến thể khác của LDA, đó là điều tôi đang muốn làm. Cuối cùng tôi đã thực hiện công cụ ước tính kiểu Chib từ giấy của họ bằng cách sử dụng mã MATLAB mà họ cung cấp làm hướng dẫn mặc dù phải khắc phục một số vấn đề khi thực hiện điều đó, hãy cho tôi biết nếu bạn muốn mã.
Matt

Xin chào @Matt có thể đưa cho tôi mã MATLAB để đánh giá sự bối rối trên LDA không? Cảm ơn
công chúa Ba Tư

@ précofpersia Tôi nghĩ rằng tác giả đã khắc phục sự cố mà tôi đã đề cập với mã MATLAB, xem tại đây: homepages.inf.ed.ac.uk/im
Matt

0

Chúng tôi biết rằng các tham số của LDA được ước tính thông qua suy luận biến đổi. Vì thế

đăng nhậpp(w|α,β)= =E[đăng nhậpp(θ,z,w|α,β)]-E[đăng nhậpq(θ,z)]+D(q(θ,z)||p(θ,z)) .

Nếu phân phối đa dạng của bạn đủ bằng phân phối ban đầu, thì . Vì vậy, , mà là khả năng.log p ( w | α , β ) = E [ log p ( θ , z , w | α , β ) ] - E [ log q (D(q(θ,z)||p(θ,z))= =0đăng nhậpp(w|α,β)= =E[đăng nhậpp(θ,z,w|α,β)]-E[đăng nhậpq(θ,z)]

đăng nhậpp(w|α,β) gần đúng với khả năng bạn nhận được từ Suy luận Biến đổi.


1
Tôi nghĩ rằng có thể cải thiện câu trả lời để cụ thể hơn về cách tính toán sự bối rối trên tập kiểm tra.
Momo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.