Dưới đây là toàn bộ bài viết về vấn đề này, với một bản tóm tắt các cách tiếp cận khác nhau. Nó được gọi là Ước tính giá trị riêng biệt trong văn học.
Nếu tôi phải tự làm điều này, mà không cần phải đọc những bài báo ưa thích, tôi sẽ làm điều này. Trong các mô hình ngôn ngữ xây dựng, người ta thường phải ước tính xác suất quan sát một từ chưa biết trước đó, được đưa ra một loạt các văn bản. Một cách tiếp cận khá tốt để giải quyết vấn đề này cho các mô hình ngôn ngữ nói riêng là sử dụng số lượng từ xảy ra chính xác một lần, chia cho tổng số mã thông báo. Nó được gọi là Ước tính Turing Tốt .
Đặt u1 là số lượng giá trị xảy ra chính xác một lần trong một mẫu của các mục m.
P[new item next] ~= u1 / m.
Đặt u là số lượng vật phẩm duy nhất trong mẫu kích thước m của bạn.
Nếu bạn nhầm tưởng rằng tỷ lệ 'mặt hàng mới tiếp theo' không giảm khi bạn có thêm dữ liệu, thì sử dụng Turing tốt, bạn sẽ có
total uniq set of size s ~= u + u1 / m * (s - m)
Điều này có một số hành vi khó chịu khi u1 trở nên thực sự nhỏ, nhưng đó có thể không phải là vấn đề đối với bạn trong thực tế.