Tôi có 40000 hàng dữ liệu văn bản của miền chăm sóc sức khỏe. Dữ liệu có một cột cho văn bản (2-5 câu) và một cột cho thể loại của nó. Tôi muốn phân loại nó thành 300 loại. Một số loại là độc lập trong khi một số có liên quan phần nào. Phân phối dữ liệu giữa các danh mục không đồng nhất, tức là một số danh mục (khoảng 40 trong số chúng) có ít dữ liệu hơn khoảng 2-3 hàng.
Tôi đang đính kèm xác suất đăng nhập của từng lớp / loại. (HOẶC phân phối các lớp học) ở đây.