Vâng, câu trả lời là sách.
Chúng có thể được quét sai, từ các ngôn ngữ khác hoặc thậm chí một tác giả đã viết sai.
Tôi đề nghị bạn đọc Recaptcha về trang .
Vui lòng
Để lưu trữ kiến thức của con người và làm cho thông tin dễ tiếp cận hơn với thế giới, nhiều dự án hiện đang số hóa các cuốn sách vật lý được viết trước thời đại máy tính. Các trang sách đang được quét ảnh, sau đó chuyển thành văn bản bằng cách sử dụng "Nhận dạng ký tự quang học" (OCR). Việc chuyển đổi thành văn bản rất hữu ích vì việc quét một cuốn sách tạo ra hình ảnh, rất khó lưu trữ trên các thiết bị nhỏ, đắt tiền để tải xuống và không thể tìm kiếm. Vấn đề là OCR không hoàn hảo.
reCAPTCHA cải thiện quá trình số hóa sách bằng cách gửi các từ mà máy tính không thể đọc được lên Web dưới dạng CAPTCHA để con người giải mã. Cụ thể hơn, mỗi từ không thể đọc chính xác bằng OCR được đặt trên một hình ảnh và được sử dụng làm CAPTCHA. Điều này là có thể bởi vì hầu hết các chương trình OCR cảnh báo bạn khi một từ không thể được đọc chính xác.
Chỉnh sửa
Như tôi đã nói, lỗi trong OCR -
Tôi tin rằng Indelms có nghĩa là người Ấn Độ - nằm trong Điều lệ Hoa Kỳ tại Tập lớn 40 Phần 2
polietry - rất có thể được quét sai từ Popliteal - một thuật ngữ y tế.