Tự lưu trữ hệ thống giống như recaptcha để số hóa các sách đã tải lên của tôi


7

Từ wikipedia

reCAPTCHA là một hệ thống ... sử dụng CAPTCHA để giúp số hóa văn bản sách trong khi bảo vệ trang web khỏi bot

Tôi có rất nhiều tài liệu được quét mà tôi muốn chuyển đổi và muốn giới thiệu một hình ảnh xác thực trên trang web của mình, vậy tại sao không giết hai con chim bằng một viên đá?

Dự án reCAPTCHA có chương trình nghị sự riêng mặc dù tập trung vào tài liệu lưu trữ của Thời báo New York và sách từ Google Books.

Có một dự án tương tự tồn tại mà tôi có thể lưu trữ và do đó ra lệnh cho các cuốn sách / tài liệu được số hóa?


Câu hỏi này mang tính xây dựng nhưng lạc đề. Đây là một bản sao chính xác của một câu hỏi trên Stack Overflow có trước trang web của chúng tôi. Xem câu hỏi này, stackoverflow.com/questions/244179/ Cách
Ben Hoffman

1
@RandomBen Tôi nghĩ rằng Craig đang tìm cách sử dụng một hệ thống giống như CAPTCHA để số hóa sách chứ không phải để xác thực đầu vào của người dùng (như trong câu hỏi SO đó).
Nick

3
@Craig Lời khuyên của tôi là sử dụng hệ thống Nhận dạng ký tự quang học của chính Google để tải lên hình ảnh của bạn và chuyển đổi chúng thành văn bản một cách nhanh chóng ( bản demonhiều thông tin khác ). Hệ thống CAPTCHA tự lưu trữ sẽ quá chậm để chuyển đổi toàn bộ sách. reCAPTCHA chỉ được sử dụng để sử dụng con người để chuyển đổi các từ chưa biết, không phải toàn bộ tài liệu.
Nick

2
@paulmor " Tôi nghĩ rằng toàn bộ vấn đề là dịch các từ OCR không thể xử lý.
Nick

1
@Craig - Tôi mở lại câu hỏi. Đây có thể không phải là trang web tốt nhất cho nó nhưng tôi không chắc chắn cái nào ở thời điểm này.
Ben Hoffman

Câu trả lời:


1

Sử dụng OCR của Google để số hóa những cuốn sách đó. Đối với việc sử dụng sách của riêng bạn để dịch, hiện tại phần mềm của bên thứ ba không có sẵn cho điều đó. Để thêm lý do chống lại điều này, một đoạn trích từ Trang web CAPTCHA;

Tôi có nên tự tạo CAPTCHA không?

Nói chung, tạo tập lệnh CAPTCHA của riêng bạn (ví dụ: sử dụng PHP, Perl hoặc .Net) là một ý tưởng tồi, vì có nhiều chế độ thất bại. Chúng tôi khuyên bạn nên sử dụng triển khai được thử nghiệm tốt như reCAPTCHA.

Hơn nữa, ông đã phát biểu tại một hội nghị TED về chủ đề reCAPTCHA. Nếu bạn thực sự có ý định làm cho riêng mình, cũng có thể nghiên cứu lên.


Liên kết Google OCR bạn cung cấp không còn có thông tin về OCR. Bạn có một liên kết cập nhật?
Bulrush
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.