Một cách tiếp cận truyền thống về xây dựng tính năng để khai thác văn bản là cách tiếp cận theo từ và có thể được tăng cường bằng cách sử dụng tf-idf để thiết lập vectơ đặc trưng mô tả tài liệu văn bản đã cho. Hiện tại, tôi đang cố gắng sử dụng mô hình ngôn ngữ bi-gram hoặc (N-gram) để xây dựng vectơ đặc trưng, nhưng không biết làm thế nào để làm điều đó? Chúng ta có thể làm theo cách tiếp cận của các từ, nghĩa là tính toán tần số theo thuật ngữ bi-gram thay vì từ và tăng cường sử dụng sơ đồ trọng số tf-idf không?