Trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên như sửa lỗi chính tả, dịch máy và nhận dạng giọng nói, chúng tôi sử dụng các mô hình ngôn ngữ. Các mô hình ngôn ngữ được tạo ra thường bằng cách đếm tần suất các chuỗi từ (n-gram) xuất hiện trong một kho văn bản lớn và chuẩn hóa số lượng để tạo xác suất. Để giải thích cho n-gram không nhìn thấy, chúng tôi sử dụng các phương pháp làm mịn (xem một số liệt kê ở đây ) lấy một số khối xác suất từ n-gram được chứng thực trong mô hình và phân phối khối lượng này theo n-gram thứ tự thấp hơn (chuỗi từ ngắn hơn ) xác suất dự phòng.
Nhiều kỹ thuật làm mịn trở nên phức tạp về mặt toán học do các ràng buộc mà các tính toán phải giữ phân phối như một xác suất (phải thêm tối đa 1).
Lý do cho sự hạn chế này là gì? Lợi thế của việc sử dụng xác suất nghiêm ngặt để dự đoán thay vì điểm số của bất kỳ loại nào khác là gì?
PS Tài liệu tham khảo tương ứng với liên kết là [Stanley F. Chen và Joshua Goodman (1998), một nghiên cứu thực nghiệm về kỹ thuật làm mịn cho mô hình hóa ngôn ngữ "].