Giải pháp OCR tốt nhất, đơn giản nhất là gì?


77

Tôi muốn quét một số lượng lớn giấy tờ tôi đã nằm xung quanh, với ít rắc rối nhất có thể. Tôi muốn chuyển đổi chúng thành hình ảnh bằng cách sử dụng Quét đơn giản, sau đó chuyển đổi chúng thành văn bản bằng OCR. Có một ứng dụng OCR tốt với GUI sẽ cho tôi kết quả tốt chỉ bằng cách ấn nút không?


Chúng tôi thực sự cần làm lại rất nhiều trong chủ đề này. Rất nhiều thứ cũ / mất giá / ... Không có thử nghiệm một lót. Chủ yếu là sao chép-dán kết quả / danh sách ở đây. Không đảm bảo chất lượng.
Léo Léopold Hertz

Năm 2018, giải pháp OCR đơn giản nhất cho đến nay là sử dụng một ocr api trực tuyến : Google Vision OCR, Azure OCR hoặc OCR.space OCR API miễn phí đều cung cấp kết quả OCR chất lượng cao - tất nhiên chỉ khi trường hợp ứng dụng / sử dụng của bạn cho phép giải pháp đám mây .
Nic Endo

Câu trả lời:


70
  • GOCR từ là một chương trình OCR (Nhận dạng ký tự quang học). Nó chuyển đổi hình ảnh được quét của văn bản trở lại tệp văn bản.

  • CLARA là một tùy chọn đồ họa tốt.

  • OCRAD từ là một OCR có thể được sử dụng như một ứng dụng bảng điều khiển độc lập hoặc làm phụ trợ cho các chương trình khác.

  • KOOKA từ là một ứng dụng KDE nhưng hoạt động tốt, ngoài ra bạn phải cài đặt các chương trình OCR thực tế như GOCR và OCRAD. Sau khi cài đặt các chương trình Kooka và OCR, bạn phải trỏ Kooka đến vị trí cài đặt OCR để có thể cài đặt nó chuyển đổi JPEG thành văn bản.

  • OCRFeeder từ là một phân tích bố cục tài liệu và hệ thống nhận dạng ký tự quang học.

  • Tesseract from là tiện ích dòng lệnh và nó rất đơn giản để sử dụng. Bạn có thể cài đặt gói ngôn ngữ tesseract-ocr-eng từ đây .

Có một cái nhìn vào trang này .

Lưu ý:
Để chạy thiết bị đầu cuối tesseract goto và gõ như sau

tesseract imagefile.tif outputfile.txt

Tesseract chỉ có thể đọc tệp TIFF - nếu bạn đã có JPEG hoặc PDF hoặc bất cứ điều gì, bạn sẽ phải chuyển đổi nó. Ngoài ra, phần mở rộng tên tệp phải là .tif, không phải .tiff, nếu không thì lỗi tesseract.


1
Nếu ngôn ngữ nói của bạn không phải là tiếng Anh? có bất kỳ phần mở rộng cho ngôn ngữ khác?
Vassilis

3
@Vassilis: Các hệ thống OCR độc lập với ngôn ngữ vì chúng nhận ra các ký tự, không phải từ. Tuy nhiên, nếu bảng chữ cái của bạn không có các ký tự Latin1 (như cyrillic) thì nó có thể bỏ lỡ các ký tự đó.
OpenNingia

2
@OpenNingia: Ngôn ngữ có thể quan trọng, ngay cả với các hệ thống chữ viết chỉ sử dụng chữ cái Latinh. Nó giúp OCR phân biệt giữa các chữ cái mơ hồ.
Frédéric Grosshans

13
Những câu hỏi / câu trả lời như vậy thực sự gây rối cho Askubfox. Người hỏi "Giải pháp OCR đơn giản nhất, tốt nhất" không phải "tất cả các ứng dụng OCR có sẵn cho Linux là gì". Giải pháp này không nên được chấp nhận! Thực sự khó hiểu và không hữu ích.
Alin Andrei

1
Ubuntu hiện tại tesseract(3.04.00 trên Ubuntu 15.10) không có vấn đề với PNGcác tệp đầu vào. nó chấp nhận JPGcác tập tin, nhưng mang lại kết quả tồi tệ hơn cho chúng, như người ta mong đợi từ các tạo tác bổ sung của việc nén.
Volker Siegel

10

Có một số công cụ dòng lệnh OCR phổ biến mà bạn có thể sử dụng (Tôi không chắc chúng có GUI không):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Cũng có sẵn cho: Tesseract .NET , Tesseract iOS

    Công cụ OCR được phát triển tại Phòng thí nghiệm HP từ năm 1985 đến năm 1995 ... và bây giờ tại Google. Tesseract có lẽ là công cụ OCR mã nguồn mở chính xác nhất hiện có.

    Sử dụng:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    Nhận dạng ký tự nguồn mở. Nó chuyển đổi hình ảnh quét của văn bản trở lại tập tin văn bản. GOCR có thể được sử dụng với các giao diện người dùng khác nhau, điều này giúp cho việc chuyển sang các hệ điều hành và kiến ​​trúc khác nhau rất dễ dàng. Nó có thể mở nhiều định dạng hình ảnh khác nhau và chất lượng của nó đã được cải thiện hàng ngày.

  • OCRopus ™ ( FAQ ) (được viết bằng Python, NumPy và SciPy)

    Hệ thống OCR tập trung vào việc sử dụng máy học quy mô lớn để giải quyết các vấn đề trong phân tích tài liệu, bao gồm phân tích bố cục có thể cắm, nhận dạng ký tự có thể cắm, mô hình ngôn ngữ tự nhiên thống kê và khả năng đa ngôn ngữ.

    Công cụ OCRopus dựa trên hai dự án nghiên cứu: bộ nhận dạng chữ viết hiệu suất cao được phát triển vào giữa những năm 90 và được triển khai bởi Cục điều tra dân số Hoa Kỳ và các phương pháp phân tích bố cục hiệu suất cao mới lạ.

    OCRopus là sự phát triển được tài trợ bởi Google và ban đầu được dành cho các nỗ lực chuyển đổi tài liệu với khối lượng lớn, thông lượng cao. Chúng tôi hy vọng rằng nó cũng sẽ là một hệ thống OCR tuyệt vời cho nhiều ứng dụng khác.

  • Tessnet2 (Mã nguồn mở, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    Tesseract là một công cụ OCR mã nguồn mở C ++. Tessnet2 là hội đồng .NET trưng bày các phương thức rất đơn giản để thực hiện OCR. Tessnet2 theo giấy phép Apache 2 (như tesseract), có nghĩa là bạn có thể sử dụng nó như bạn muốn, được bao gồm trong các sản phẩm thương mại.

Vài người khác: ABBYY CLI OCR cho Linux , OCR đáng ngạc nhiên

Để biết danh sách đầy đủ hơn, hãy kiểm tra: Danh sách phần mềm nhận dạng ký tự quang học tại Wikipedia

Xem thêm: wanghaisheng/awesome-ocr- Danh sách các nguồn lực OCR đầy hứa hẹn tại GitHub.


9

giải pháp linux-smart-ocr

từ chối trách nhiệm - Tôi liên quan chặt chẽ với sự phát triển của giải pháp mã nguồn mở này

Lios có thể chuyển đổi in thành văn bản bằng cách sử dụng máy quét hoặc máy ảnh.

Nó cũng có thể tạo văn bản từ các hình ảnh được quét từ các nguồn khác như Pdf, Hình ảnh hoặc Thư mục có chứa Hình ảnh.

Chương trình được cung cấp toàn bộ khả năng tiếp cận cho người khiếm thị.

Vì tôi kết nối chặt chẽ - tôi rất thích phản hồi.


Tài liệu về việc sử dụng ở đâu? lios không trực quan như tôi mong đợi.
một lập trình viên

Dự án đã chuyển đến đây .
Suzana

Có thể chạy nó thông qua dòng lệnh chỉ trong chế độ không đầu trên máy chủ?
Bế tắc

8

Gscan2PDF

OCR trên nhiều trang PDF hoặc tài liệu được quét

Đây có lẽ là cách dễ nhất. Gscan2pdf là một công cụ đồ họa cho phép bạn không chỉ quét các tệp mà còn nhập các tệp và thực hiện OCR trên chúng. Cài đặt gscan2pdf từ đây Cài đặt gscan2pdf , từ Trung tâm phần mềm Ubuntu hoặc chạy lệnh này trong một thiết bị đầu cuối:

sudo apt-get install gscan2pdf
  • Chạy gscan2pdf
  • Nhập pdf (Ctrl + O)
  • Tùy chọn: Công cụ> Dọn dẹp
  • Chọn Công cụ> Lưu OCR (Ctrl + S)

Gscan2PDF có thể sử dụng các công cụ OCR có thể tùy chỉnh, mặc định là tesseract-ocr

Bạn có thể cân nhắc lựa chọn ngôn ngữ phù hợp. Trong trường hợp đó, bạn sẽ cần cài đặt tesseract-ocr-LANGgói, LANGmã ngôn ngữ ISO 639-2 ở đâu. Ngay bây giờ bạn có 108 ngôn ngữ trên 16.04 repo.


Tôi không thể làm bất cứ điều gì với phần mềm này. Không có phát hiện đầy đủ ở tất cả. Sẽ thật tuyệt khi nhận được bất kỳ mẫu thử nghiệm nào về các ứng dụng trước các đề xuất của họ.
Léo Léopold Hertz

gscan2pdf cho 16.04 ít nhất không có phím tắt tùy chọn Ctrl + i. Mở tệp pdf xác định chính xác "trang cần giải nén", nhưng chọn "ok" thì không có gì.
dùng75505

3

Tôi vừa có thành công (dưới 16.04) với pdfnic.rb . Điều này được liệt kê trên Ubuntu wiki

Đây là một ppa nhưng kho lưu trữ cho 16.04 không được cập nhật. Kịch bản ruby ​​ở trên từ github mặc dù vẫn hoạt động với 16.04.

Bạn có thể tải nó từ Github. Bạn sẽ cần các gói sau được cài đặt:

ruby tesseract-ocr pdftk exactimage

sau đó thực hiện pdfoc.rb thực thi và chạy:

./pdfocf.rb -i source.pdf -o output.pdf

Tùy chọn bạn có thể sử dụng -l LANGtham số. Trong trường hợp đó, bạn sẽ cần cài đặt tesseract-ocr-LANGgói, LANGmã ngôn ngữ ISO 639-2 ở đâu. Ngay bây giờ bạn có 108 ngôn ngữ trên 16.04 repo.


3

Cách tốt nhất và dễ nhất là sử dụng pypdfocrnó không thay đổi pdf. pypdfoc là một liên kết mô-đun python ở đây.

pypdfocr your_document.pdf

Cuối cùng, bạn sẽ có một your_document_ocr.pdfcách khác mà bạn muốn với văn bản có thể tìm kiếm. Ứng dụng không thay đổi chất lượng của hình ảnh. Tăng kích thước của tệp một chút bằng cách thêm văn bản lớp phủ.

Tôi nghĩ rằng lệnh này khá dễ dàng mà nó không cần bất kỳ GUI nào. Có lẽ cài đặt pypdfoc là một chút dài dòng hơn:

sudo apt install tesseract-ocr 
pip install pypdfocr 

Cập nhật ngày 3 tháng 11 năm 2018:

pypdfocrkhông còn được hỗ trợ kể từ năm 2016 và tôi nhận thấy một số vấn đề do không được lưu ý. ocrmypdf( mô-đun thực hiện một công việc quen thuộc và có thể được sử dụng như thế này:

ocrmypdf in.pdf out.pdf

Để cài đặt:

pip install ocrmypdf

hoặc là

apt install ocrmypdf

Đây là một công cụ rất thú vị, mặc dù tôi nghĩ OP muốn có một công cụ GUI để tạo tệp văn bản chứ không phải bánh sandwich PDF. Sẽ thật tốt nếu bạn có thể bao gồm trang web của dự án.
Andrea Lazzarotto

@AndreaLazzarotto Có tôi đã thấy nhưng vì sự đơn giản đó nên tôi đoán nhiều người có thể sử dụng thiết bị đầu cuối cho điều đó. vì vậy tôi nghĩ nên đưa giải pháp vào đây
Eduard Florinescu

1
Như một sự trùng hợp ngẫu nhiên, mới đây tôi đã phát hiện ra "ocrmypdf". Bạn đã kiểm tra chưa? Nó rất đẹp :)
Andrea Lazzarotto

@AndreaLazzarotto có vẻ như là một lựa chọn tốt mà bạn có thể muốn đăng câu trả lời;) Tôi sẽ dùng thử để xem nó hoạt động như thế nào :)
Eduard Florinescu

@AndreaLazzarotto Có vẻ như không đơn giản để cài đặt ocrmypdf trên ubfox 16.04 github.com/jbarlow83/OCRmyPDF/issues/118
Eduard Florinescu

3

Chỉ vì nó hoạt động rất độc đáo và chắc chắn nên có trong danh sách:

gimageReader
Ví dụ từ ảnh chụp màn hình:

nhập mô tả hình ảnh ở đây

Nó nằm trong repos (đã trả lời vào ngày 18.10, nhưng đã được sử dụng từ lâu)


Khi tôi lần đầu tiên ra mắt gimageReader, nó đã cho tôi một thông báo "Không có ngôn ngữ" cho tesseract. Câu trả lời " Làm cách nào để cài đặt gói ngôn ngữ mới cho tesseract " không liệt kê engdưới dạng tùy chọn ... nhưng tôi đã giải quyết nó! :) Chạy sudo apt install tesseract-ocr-engtrong thiết bị đầu cuối đã lừa Sẽ thật tuyệt nếu điều này được ghi lại trong tệp trợ giúp của gimageReader hoặc "README" trên github ... hoặc ở đâu đó. Giống như ở đây, có lẽ.
Ngày

1

gscan2pdf bao gồm 3 động cơ ocr khác nhau. Bạn có thể quét ngay vào chương trình hoặc nhập pdf của bạn vào chương trình. Tôi đã tìm thấy công cụ Tesseract hoạt động rất tốt và rất dễ sử dụng

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.