Chữ N-gram được sử dụng thay vì từ vì nhiều lý do:
1) Danh sách các từ cần thiết cho một ngôn ngữ nhất định khá lớn, có thể là 100.000 nếu bạn xem xét nhanh, nhanh hơn, nhanh nhất, nhịn ăn, nhịn ăn, nhịn ăn, ... như tất cả các từ khác nhau. Đối với 80 ngôn ngữ, bạn cần khoảng 80 lần nhiều từ, chiếm nhiều dung lượng - hơn 50 megabyte.
2) Số bát quái chữ cái cho bảng chữ cái 26 chữ cái là 26 ** 3 hoặc khoảng 17.000 và cho hình tứ giác (N = 4) khoảng 450.000 bao gồm TẤT CẢ các ngôn ngữ sử dụng bảng chữ cái đó. Số lượng tương tự nhưng có phần lớn hơn đối với N-gram trong bảng chữ cái lớn hơn từ 30 đến 100 ký tự. Đối với các ngôn ngữ CJK có hơn 4000 chữ cái trong tập lệnh Han, unigrams (N = 1) là đủ. Đối với một số tập lệnh Unicode, chỉ có một ngôn ngữ cho mỗi tập lệnh (tiếng Hy Lạp, tiếng Armenia), do đó không cần kết hợp chữ cái (cái gọi là nil-gram N = 0)
3) Với các từ, bạn hoàn toàn không có thông tin khi đưa ra một từ không có trong từ điển, trong khi với chữ N-gram, bạn thường có ít nhất một vài kết hợp chữ cái hữu ích trong từ đó.
CLD2 sử dụng bốn biểu đồ cho hầu hết các tập lệnh Unicode (bảng chữ cái) bao gồm tiếng Latin, Cyrillic và tiếng Ả Rập, unigram cho các tập lệnh CJK, nilgram cho các tập lệnh khác và cũng bao gồm một số lượng hạn chế các từ và cặp từ hoàn toàn khá đặc biệt và khá phổ biến để phân biệt trong các nhóm khó khăn của các ngôn ngữ tương tự thống kê, chẳng hạn như tiếng Indonesia và tiếng Malay. Thư bigram và trigram có lẽ hữu ích để phân biệt giữa một số ít ngôn ngữ (khoảng tám, xem https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit), nhưng vô dụng để phân biệt hàng tá ngôn ngữ. Do đó, CLD2 sử dụng bốn biểu đồ, liên kết với mỗi tổ hợp chữ cái ba ngôn ngữ có khả năng cao nhất sử dụng kết hợp đó. Điều này cho phép bao gồm 80 ngôn ngữ với khoảng 1,5 MB bảng và 160 ngôn ngữ chi tiết hơn với khoảng 5 MB bảng.