RECAPTCHA lấy những từ đó từ đâu? [đóng cửa]

Tôi chỉ hỏi vì tò mò.

Hôm nay tôi đã gặp một số từ thực sự lạ khi bị RECAPTCHA ghi lại:

indelms
sumbetat
chính trị
grevolfa

Nếu đây là những từ hợp lý trong bất kỳ ngôn ngữ nào, một tìm kiếm Google sẽ mang lại một số trang hợp lý sử dụng những từ này trong một câu. Tuy nhiên, số lượng kết quả Google cho các từ trên là 3, 0, 27 và 0. Các lần truy cập rõ ràng là lỗi chính tả cho các từ hợp lý khác.

Vậy RECAPTCHA lấy những từ đó từ đâu? (Lưu ý: Sách Books. Không phải là một câu trả lời đầy đủ :) Tôi đang tìm kiếm một lời giải thích cho tỷ lệ cao của những từ dường như không tồn tại ...)

captcha

— Timwi
nguồn

Nếu câu hỏi này không có chủ đề ở đây, trang web StackExchange nào sẽ phù hợp hơn?

— Timwi

Vâng, câu trả lời là sách.

Chúng có thể được quét sai, từ các ngôn ngữ khác hoặc thậm chí một tác giả đã viết sai.

Tôi đề nghị bạn đọc Recaptcha về trang .

Vui lòng

Để lưu trữ kiến thức của con người và làm cho thông tin dễ tiếp cận hơn với thế giới, nhiều dự án hiện đang số hóa các cuốn sách vật lý được viết trước thời đại máy tính. Các trang sách đang được quét ảnh, sau đó chuyển thành văn bản bằng cách sử dụng "Nhận dạng ký tự quang học" (OCR). Việc chuyển đổi thành văn bản rất hữu ích vì việc quét một cuốn sách tạo ra hình ảnh, rất khó lưu trữ trên các thiết bị nhỏ, đắt tiền để tải xuống và không thể tìm kiếm. Vấn đề là OCR không hoàn hảo.

alt text

reCAPTCHA cải thiện quá trình số hóa sách bằng cách gửi các từ mà máy tính không thể đọc được lên Web dưới dạng CAPTCHA để con người giải mã. Cụ thể hơn, mỗi từ không thể đọc chính xác bằng OCR được đặt trên một hình ảnh và được sử dụng làm CAPTCHA. Điều này là có thể bởi vì hầu hết các chương trình OCR cảnh báo bạn khi một từ không thể được đọc chính xác.

Chỉnh sửa

Như tôi đã nói, lỗi trong OCR -

Tôi tin rằng Indelms có nghĩa là người Ấn Độ - nằm trong Điều lệ Hoa Kỳ tại Tập lớn 40 Phần 2

polietry - rất có thể được quét sai từ Popliteal - một thuật ngữ y tế.

— William Hilsum
nguồn

@Timwi - đã cập nhật câu trả lời của tôi, một lần nữa, tôi chắc chắn đó chỉ là lỗi OCR, nếu bạn từng quét tài liệu, bạn sẽ nhận được những thứ như thế này mọi lúc. Đó cũng có thể là lỗi trong OCR từ các ngôn ngữ khác nhau, tôi chưa bao giờ nói đó là một trong số đó .... Tại sao Recaptcha lại nói dối về nguồn của họ!?

— William Hilsum

@Wil: Điều này không có ý nghĩa gì. Dường như bạn đang ám chỉ rằng những từ tôi thấy là kết quả của một OCR. Điều đó rõ ràng không phải là trường hợp. Chúng được quét từ một cuốn sách. Chúng là bản quét của những từ mà OCR thất bại.

— Timwi

@Timwi - Tại sao lại có thái độ? Người đàn ông chỉ cố gắng giúp đỡ (và làm hết sức mình như mọi người có thể thấy). Vâng, chúng là kết quả của một OCR ... không ai nói, rằng OCR là hoàn hảo, và kết quả đó là chính xác. Quét sách, OCR nó, xác minh kết quả, nếu có bất kỳ nghi ngờ nào về nó, hãy đặt bản quét gốc dưới dạng captcha. Và vâng, họ cũng sử dụng các ngôn ngữ khác - chỉ mới hôm nọ tôi tình cờ đọc được một vài từ trong ngôn ngữ của mình (ngôn ngữ châu Âu rất nhỏ).

— Rook

@Rook: Thứ nhất, không có thái độ của người Viking trong bình luận của tôi. Tôi chỉ đơn thuần chỉ ra sai sót với câu trả lời của anh ấy. Thứ hai: chính xác! Họ đặt bản quét gốc dưới dạng captcha , không phải là kết quả của một OCR (điều đó sẽ không có ý nghĩa gì). Do đó, các lỗi trong OCR không phải là câu trả lời cho câu hỏi của tôi. Nhưng những quét gốc mà tôi đang nhìn thấy là những từ vô nghĩa từ không có ngôn ngữ nào cả. Nếu chúng là những từ từ một ngôn ngữ hợp lý, thậm chí là một từ hiếm như tiếng Basque hoặc tiếng Malta hoặc bất cứ thứ gì, Google sẽ hiển thị các trang hợp lý thực sự sử dụng từ đó trong ngữ cảnh hợp lý. Nhưng nó không có.

— Timwi

@Timwi - Không, không nhất thiết. Google chỉ hiển thị một phần của hầu hết các ngôn ngữ từ giả sử, trong 30 năm qua. Ngôn ngữ thay đổi. Tôi có những cuốn sách trên kệ của tôi ngay bây giờ với những từ trong đó không còn được sử dụng ngày nay trong cả viết và nói, và sẽ tạo ra rất ít sự xuất hiện trên google / internet. Nếu tiếng Anh không phải là ngôn ngữ của ngày hôm nay, thì đó chắc chắn sẽ là một trường hợp tương tự (Hãy thử so sánh tiếng Anh của Shakespearean và tiếng Anh Mỹ ...)

— Rook