Biện pháp "phản tác dụng" của bạn có thể tùy ý - ví dụ. với nhiều bộ nhớ nhanh, nó có thể được xử lý nhanh hơn (hợp lý hơn).
Sau khi nói điều đó, sự tăng trưởng theo cấp số nhân đi vào nó và từ những quan sát của riêng tôi, nó dường như ở khoảng 3-4. (Tôi chưa thấy nghiên cứu cụ thể nào).
Trigram có lợi thế hơn bigram nhưng nó nhỏ. Tôi chưa bao giờ thực hiện 4 gram nhưng sự cải thiện sẽ ít hơn nhiều. Có lẽ là một thứ tự giảm cường độ tương tự. Ví dụ. nếu bát quái cải thiện 10% so với bigram, thì ước tính hợp lý cho 4 gram có thể là cải thiện 1% so với bát quái.
10 , 000100002100003100004
Bạn sẽ cần một khối lượng lớn để bù đắp cho hiệu ứng pha loãng, nhưng Luật của Zipf nói rằng một khối lượng lớn cũng sẽ có những từ thậm chí còn độc đáo hơn ...
Tôi suy đoán rằng đây là lý do tại sao chúng ta thấy rất nhiều mô hình bigram và trigram, triển khai và trình diễn; nhưng không có ví dụ 4 gram làm việc đầy đủ.