Chuyển đổi hình ảnh thành văn bản


8

Tôi đã nhận được một tài liệu hình ảnh được quét từ ngân hàng và tôi muốn chuyển đổi nó thành tài liệu văn bản bình thường với hình ảnh trong Ubuntu.

Có công cụ nào cho nó không?

Câu trả lời:


15

Có một số trình đọc OCR cho linux có thể chuyển đổi từ hình ảnh sang văn bản. Nhìn vào các tùy chọn sau:

Tất cả các mục trên, ngoại trừ ocropus, đều có trong kho lưu trữ Ubuntu trong một gói cùng tên.

Các trình đọc khác nhau hỗ trợ các định dạng hình ảnh khác nhau, do đó bạn có thể bị giới hạn trong các tùy chọn của mình bởi định dạng tệp mà tài liệu của bạn đang ở. Ngoài ra, bạn có thể sử dụng công cụ chuyển đổi từ ImageMagick để thay đổi định dạng nếu bạn muốn sử dụng trình đọc OCR cụ thể.

Chuyển thể từ câu trả lời của tôi ở đây .


0

Trước tiên, bạn cần cài đặt "tesseract-ocr" trên máy linux của mình.

sudo apt-get install tesseract-ocr

Bạn có thể làm điều đó bằng tay từ CLI hoặc tôi đã tạo mã PHP giống nhau, bạn có thể sử dụng nó nếu bạn muốn.

Lưu ý: Để chạy mã này, lệnh exec phải được kích hoạt trong php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

đặt mã này vào thư mục gốc và truy cập nó từ trình duyệt,

ví dụ :

http://yourserver.com?input_file=1.png

Lưu ý: tập tin 1.png nên có trong thư mục hiện tại của bạn.

Tôi không có quyền tải lên hình ảnh, tôi đã sử dụng hình ảnh này để tham khảo, http://plone.org/documentation/kb-old/copy_of_oc-in-plone-USE-tesseract-oc/phototest.gif/image_preview

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.