Câu trả lời:
Google Docs hiện đang thử nghiệm tính năng API mới sử dụng OCR (Nhận dạng ký tự quang học) trên hình ảnh và PDF.
Từ hệ điều hành Google :
API Google Docs kiểm tra một tính năng mới cho phép bạn thực hiện OCR (nhận dạng ký tự quang học) trên hình ảnh. Có bản demo trực tiếp minh họa tính năng này : bạn có thể tải lên hình ảnh JPG, GIF hoặc PNG có độ phân giải cao có dưới 10 MB và Google Docs trích xuất văn bản và chuyển đổi nó thành tài liệu mới. Google đề cập rằng "hoạt động hiện có thể mất tới 40 giây" và một thử nghiệm nhỏ cho thấy dịch vụ này chưa đáng tin cậy: nó chậm và thường xuyên trả về lỗi.
Kết quả không hoàn hảo và bạn sẽ tìm thấy nhiều lỗi, nhưng dịch vụ này miễn phí và không ngừng cải thiện. Đây là kết quả của OCR cho tài liệu được quét này :
Một tài liệu Google Docs có thể được xuất ra ở một số định dạng khác nhau, bao gồm HTML, OpenOffice và Word:
Theo câu trả lời của tôi về SO cho Có ai biết cách dễ dàng chuyển đổi PDF sang định dạng docx theo lập trình :
Chuyển đổi PDF sang SVG (ghostscript sẽ làm điều đó) và nhập ...
... vấn đề là trong khi Word không nhúng PDF, nó sẽ nhúng SVG.
Sử dụng chương trình nhận dạng ký tự quang học, chẳng hạn như Omnipage Pro . Nó hỗ trợ PDF làm đầu vào tài liệu và Word làm đầu ra.
Bạn cũng có thể dùng thử OCRTerminal cung cấp dịch vụ miễn phí cho 20 trang mỗi tháng. Họ có một Máy tính để bàn Beta dường như có sẵn để sử dụng theo lời mời (bạn phải liên hệ với họ và bày tỏ sự quan tâm).