Chúng tôi đang tìm kiếm một cách để token hóa một số văn bản theo cách tương tự hoặc tương tự như một công cụ tìm kiếm sẽ làm điều đó.
Lý do chúng tôi đang làm điều này là để chúng tôi có thể chạy một số phân tích thống kê trên các mã thông báo. Ngôn ngữ chúng tôi đang sử dụng là python, vì vậy sẽ thích một kỹ thuật hoạt động trong ngôn ngữ đó, nhưng có lẽ có thể thiết lập một cái gì đó để sử dụng ngôn ngữ khác nếu cần thiết.
Thí dụ
Mã thông báo gốc:
Chúng tôi có một số burritos tuyệt vời!
Đơn giản hơn: (loại bỏ số nhiều và dấu câu)
Chúng tôi có một số burrito tuyệt vời
Thậm chí đơn giản hơn: (loại bỏ các từ thừa)
burrito tuyệt vời
Tốt nhất: (nhận ra ý nghĩa tích cực và tiêu cực):
burrito -poseitive-