Câu trả lời:
Có một số trình đọc OCR cho linux có thể chuyển đổi từ hình ảnh sang văn bản. Nhìn vào các tùy chọn sau:
Tất cả các mục trên, ngoại trừ ocropus, đều có trong kho lưu trữ Ubuntu trong một gói cùng tên.
Các trình đọc khác nhau hỗ trợ các định dạng hình ảnh khác nhau, do đó bạn có thể bị giới hạn trong các tùy chọn của mình bởi định dạng tệp mà tài liệu của bạn đang ở. Ngoài ra, bạn có thể sử dụng công cụ chuyển đổi từ ImageMagick để thay đổi định dạng nếu bạn muốn sử dụng trình đọc OCR cụ thể.
Chuyển thể từ câu trả lời của tôi ở đây .
Trước tiên, bạn cần cài đặt "tesseract-ocr" trên máy linux của mình.
sudo apt-get install tesseract-ocr
Bạn có thể làm điều đó bằng tay từ CLI hoặc tôi đã tạo mã PHP giống nhau, bạn có thể sử dụng nó nếu bạn muốn.
Lưu ý: Để chạy mã này, lệnh exec phải được kích hoạt trong php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
đặt mã này vào thư mục gốc và truy cập nó từ trình duyệt,
ví dụ :
http://yourserver.com?input_file=1.png
Lưu ý: tập tin 1.png nên có trong thư mục hiện tại của bạn.
Tôi không có quyền tải lên hình ảnh, tôi đã sử dụng hình ảnh này để tham khảo, http://plone.org/documentation/kb-old/copy_of_oc-in-plone-USE-tesseract-oc/phototest.gif/image_preview