Làm thế nào tôi có thể trích xuất văn bản từ hình ảnh?

Tôi không nói về các tập tin được quét, nhưng các hình ảnh đa dạng trong vườn, chẳng hạn như khi bạn chụp ảnh độ phân giải cao của bảng đen trong lớp, và nó được viết bằng tay độc đáo; hoặc khi bạn chụp ảnh một trang từ một cuốn sách công thức và muốn công thức ở định dạng văn bản.

Bất kỳ phần mềm miễn phí và mở cho điều đó?

Tôi đã thử tesseract, và kết quả thật tồi tệ.

software-recommendation images ocr

— Dây đeo
nguồn

Tôi cần một OCR hỗ trợ tiếng Bengali và tiếng Anh cùng một lúc.

— alrcal

Câu trả lời:

Hành động trích xuất văn bản từ hình ảnh được gọi OCRvà Ubuntu có một trang wiki dành riêng cho OCR . Từ trang đó:

Các công cụ OCR có sẵn

Các kho lưu trữ Ubuntu Universe chứa các công cụ OCR sau:

Goc - Một dòng lệnh OCR
fuzzyoc - plugin spamassassin để kiểm tra tệp đính kèm hình ảnh
libhoc0 - OCR tiếng Do Thái
ocrad - Chương trình nhận dạng ký tự quang học
ocrfeeder - Phân tích bố cục tài liệu và hệ thống nhận dạng ký tự quang học
ocropus - phân tích tài liệu và hệ thống OCR
tesseract-ocr

Các kho lưu trữ đa vũ trụ của Ubuntu cũng chứa:

chữ hình nêm - hệ thống OCR đa ngôn ngữ

Một số gói đã lỗi thời, nhưng những gói mới không chính thức có thể được tìm thấy trong Alex_P PPA (mã thêm PPA: ppa: alex-p / Notesalbao). Nếu bạn chưa bao giờ sử dụng PPA, hãy kiểm tra cách thêm phần mềm từ PPA .

chỉnh sửa: Như thể hiện trong bình luận Clara OCR cũng tồn tại nhưng nó đã gây khó chịu tại Hardy và trang web của họ có năm 2009 như được cập nhật lần cuối.

— Gió giật
nguồn

Bạn có kinh nghiệm sử dụng bất kỳ trong số đó cho các ví dụ tôi mô tả? Tôi đã trở nên một chút hoài nghi đối với các công cụ ocr thông thường cho họ. Số 7 trong danh sách là số tôi đã thử và thật kinh khủng.

— Straakowsky

Nếu tôi nhớ lại, tôi cũng đã cố gắng, với kết quả khủng khiếp tương đương. Nếu bạn đã cố gắng thành công bất kỳ trong số đó, bạn đã sử dụng cú pháp nào? Cảm ơn.

— Straakowsky

Không có gì! Tôi không bao giờ làm phiền với OCR: D Freshmeat tìm kiếm chương trình Clara OCR và Tesseract OCR-;) ( freshmeat.net/search/... )

— Rinzwind

Tôi có sai không nếu tôi nói rằng việc sử dụng OCR thành công đòi hỏi kiến thức về quy trình và thiết lập cẩn thận để phù hợp với hình ảnh cụ thể được quét? Do đó, nếu tôi đúng, kết quả xấu có thể là do người dùng chứ không phải do phần mềm.

— NN

OCRhoạt động tốt nhất nếu bạn biết cách tạo ra hình ảnh và bạn rất thành thạo trong việc sử dụng phần mềm mà bạn sử dụng (đây là lý do tôi không bao giờ có thể sử dụng nó).

— Rinzwind

tesseract-ocrsẽ là một trong những tuyệt vời so với tất cả khác. Để cài đặt, chạy lệnh sudo apt-get install tesseract-ocr.

Cách sử dụng là tesseract filename.jpg output.txt.

Lệnh trên sẽ tạo ra output.txt.

Bạn có thể cân nhắc lựa chọn ngôn ngữ phù hợp. Trong trường hợp đó, bạn sẽ cần phải cài đặt tesseract-ocr-LANGgói, nơi LANGlà ba lá thư ISO 639-2 mã ngôn ngữ . Ngay bây giờ bạn có 123 ngôn ngữ trên repo 18.04. Sau đó sử dụng ví dụ:

tesseract mySpanishText.jpg output -l spa

— Sudhir Belagali
nguồn

Này, do đó, nó không hoạt động nhưng không chính xác hoặc tôi muốn nói là chính xác 80-85%. Ví dụ như cho hình ảnh này: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , nó đã làm rối dấu $ và hầu hết các dấu ngoặc. Hình vuông, tròn, xoăn, tất cả các dấu ngoặc là một vấn đề, chúng không bao giờ được trích xuất đúng. Bạn có biết sửa chữa gì không?

— Milan Chheda