Tôi bối rối về cách tính toán sự lúng túng của một mẫu nắm giữ khi thực hiện Phân bổ Dirichlet tiềm ẩn (LDA). Các bài viết về chủ đề này khoe về nó, khiến tôi nghĩ rằng tôi đang thiếu một cái gì đó rõ ràng ...
Perplexity được xem là thước đo hiệu suất tốt cho LDA. Ý tưởng là bạn giữ một mẫu giữ, huấn luyện LDA của bạn trên phần còn lại của dữ liệu, sau đó tính toán mức độ khó hiểu của khoản giữ.
Sự bối rối có thể được đưa ra theo công thức:
(Lấy từ truy xuất hình ảnh trên cơ sở dữ liệu hình ảnh quy mô lớn, Horster và cộng sự )
Ở đây là số lượng tài liệu (trong mẫu thử nghiệm, có lẽ), đại diện cho các từ trong tài liệu , số lượng từ trong tài liệu .w d d N d d
Tôi không rõ làm thế nào để làm sáng tỏ một cách hợp lý , vì chúng tôi không có hỗn hợp chủ đề cho các tài liệu được tổ chức. Lý tưởng nhất, chúng tôi sẽ tích hợp trên Dirichlet trước cho tất cả các hỗn hợp chủ đề có thể và sử dụng đa thức chủ đề mà chúng tôi đã học. Tính tích phân này dường như không phải là một nhiệm vụ dễ dàng.
Ngoài ra, chúng tôi có thể cố gắng tìm hiểu một hỗn hợp chủ đề tối ưu cho mỗi tài liệu được tổ chức (đưa ra các chủ đề đã học) và sử dụng điều này để tính toán sự bối rối. Điều này có thể thực hiện được, tuy nhiên nó không tầm thường như các bài báo như Horter et al và Blei et al dường như đề xuất, và tôi không rõ ràng ngay lập tức rằng kết quả sẽ tương đương với trường hợp lý tưởng ở trên.