Tôi đang xây dựng một phân loại văn bản cho các câu ngắn. Ngoài việc nói với người dùng "danh mục văn bản bạn đã nhập là C", tôi muốn có thể giải thích lý do tại sao tôi đưa ra quyết định này, một cách ngắn gọn và dễ hiểu. Ví dụ: tôi không muốn nói với người dùng "Tôi đặt câu của bạn vào mạng thần kinh 3 lớp phức tạp và đó là câu trả lời đạt điểm cao nhất"; Tôi muốn giải thích như "Câu của bạn chứa các từ U, V và W, đó là đặc trưng của thể loại này, vì các câu như X, Y và Z xuất hiện trong dữ liệu đào tạo".
Câu hỏi của tôi là: thuật toán phân loại nào phù hợp nhất cho ứng dụng đó?
k-near-láng giềng có vẻ như là một ứng cử viên tốt, bởi vì tôi có thể nói với người dùng "Câu của bạn có loại C vì nó giống với câu X, Y và Z có cùng loại. Nhưng hiệu suất của nó đối với các vấn đề phân loại văn bản được biết đến là người nghèo. Tôi đang tìm kiếm một classifie cân bằng hiệu suất với khả năng giải thích.
EDIT: Sau khi dành nhiều thời gian để tìm kiếm một bộ phân loại như vậy, tôi bắt đầu xây dựng một thư viện máy học gọi là limdu , cho phép các bộ phân loại giải thích các quyết định của họ. Nó vẫn đang được phát triển, nhưng, nó đã giúp tôi giải thích cho bản thân và các đồng nghiệp tại sao các phân loại của chúng tôi thất bại thường xuyên như vậy ...