Tôi có Linux Mint 17.2 x32 Cinnamon. Có lẽ các bước này cũng sẽ hoạt động trong Ubuntu 14.04 x32.
- Cài đặt Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Bạn có thể thêm các ngôn ngữ khác bằng cách cài đặt các gói bổ sung. Ảnh chụp màn hình này là từ các gói ngôn ngữ synaptic:
Tesseract trong Synaptic
Sử dụng Tesseract
TÙY CHỌN 1 - bằng thiết bị đầu cuối mở dòng lệnh, sau đó chuyển đến thư mục nơi Bạn giữ các tệp hình ảnh (jpg, png) và chạy lệnh:
a) để chuyển đổi tất cả các tập tin hình ảnh thành văn bản
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Để hợp nhất tất cả các tệp văn bản thành một, hãy chạy một lệnh cat *.txt >> all.txt
b) để chuyển đổi tất cả các tệp hình ảnh thành các tệp hoc (mở bằng Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
TÙY CHỌN 2 - bằng GUI
a) Cài đặt gImageReader và sử dụng nó
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) Ứng dụng thứ hai là VietOCR. Phiên bản thực tế là 4.0, vì vậy hãy tải xuống VietOCR-4.0.zip
Giải nén tệp và mở VietOCR.jar bằng Java:
Mở VietOCR bằng Java
Nếu bạn chưa cài đặt Java, thì bạn có thể cài đặt nó từ kho lưu trữ hoặc Bạn có thể cài đặt Oracle Java chính thức 8. Các bước để cài đặt Oracle Java 8 trong Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Tôi khuyên dùng VietOCR, vì nó cho phép bạn OCR tệp pdf, chuyển đổi hàng loạt cũng là một tùy chọn.