Câu trả lời phụ thuộc vào việc bạn đang giả sử phân phối dirichlet đối xứng hay không đối xứng (hoặc, về mặt kỹ thuật hơn, liệu số đo cơ sở có đồng nhất hay không). Trừ khi có một cái gì đó được chỉ định, hầu hết các triển khai LDA đều cho rằng phân phối là đối xứng.
Đối với phân phối đối xứng, giá trị alpha cao có nghĩa là mỗi tài liệu có khả năng chứa hỗn hợp của hầu hết các chủ đề và không có bất kỳ chủ đề cụ thể nào. Giá trị alpha thấp đặt ít ràng buộc như vậy hơn vào tài liệu và có nghĩa là nhiều khả năng tài liệu có thể chứa hỗn hợp chỉ một vài hoặc thậm chí chỉ một trong các chủ đề. Tương tự, giá trị beta cao có nghĩa là mỗi chủ đề có khả năng chứa hỗn hợp của hầu hết các từ và không có từ nào cụ thể, trong khi giá trị thấp có nghĩa là một chủ đề có thể chứa hỗn hợp chỉ một vài từ.
Mặt khác, nếu phân phối không đối xứng, giá trị alpha cao có nghĩa là phân phối chủ đề cụ thể (tùy thuộc vào thước đo cơ sở) có nhiều khả năng cho mỗi tài liệu. Tương tự, giá trị beta cao có nghĩa là mỗi chủ đề có nhiều khả năng chứa một hỗn hợp từ cụ thể được xác định bởi thước đo cơ sở.
Trong thực tế, giá trị alpha cao sẽ dẫn đến các tài liệu giống nhau hơn về chủ đề chúng chứa. Giá trị beta cao sẽ tương tự dẫn đến các chủ đề giống nhau hơn về các từ mà chúng chứa.
Vì vậy, vâng, các tham số alpha xác định niềm tin trước đó về độ thưa / tính đồng nhất của chủ đề trong các tài liệu. Mặc dù vậy, tôi không hoàn toàn chắc chắn ý của bạn là "loại trừ lẫn nhau các chủ đề về mặt từ ngữ".
Tổng quát hơn, đây là các tham số nồng độ cho phân phối dirichlet được sử dụng trong mô hình LDA. Để có được sự hiểu biết trực quan về cách thức hoạt động của nó, bài thuyết trình này chứa một số hình ảnh minh họa đẹp, cũng như một lời giải thích tốt về LDA nói chung.
Một nhận xét bổ sung tôi sẽ đặt ở đây, vì tôi không thể nhận xét về câu hỏi ban đầu của bạn: Từ những gì tôi đã thấy, các tham số alpha và beta có thể hơi khó hiểu khi tham khảo một số tham số khác nhau. Phân phối dirichlet cơ bản thường được tham số hóa với vectơ , nhưng điều này có thể được phân tách thành thước đo cơ bản và nồng độ tham số , sao cho . Trong trường hợp tham số alpha là vô hướng, thường có nghĩa là tham số nồng độ , nhưng nó cũng có thể có nghĩa là các giá trị của( α1, α2, . . . , αK)u = ( bạn1, bạn2, . . . , bạnK)αα * u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK), vì chúng sẽ bằng nhau dưới phân phối dirichlet đối xứng. Nếu đó là một vectơ, nó thường đề cập đến . Tôi không chắc chắn tham số nào là phổ biến nhất, nhưng trong câu trả lời của tôi, tôi cho rằng bạn có nghĩa là các giá trị alpha và beta là các tham số nồng độ.( α1, α2, . . . , αK)