Trích xuất văn bản OCR từ Evernote


13

Evernote thực hiện OCR trên các hình ảnh bạn lưu vào nó. Có cách nào để có được toàn bộ văn bản tương đương cho một hình ảnh trong Evernote hay OCR chỉ để tìm kiếm?

Câu trả lời:


15

API Evernote có chức năng lấy văn bản và hình chữ nhật trong đó văn bản này hiện diện bên trong hình ảnh. Xem http://evernote.com/about/developer/api/evernote-api.htm , xem "Định dạng XML của chỉ số nhận dạng Evernote" và các chức năng để truy xuất nó. Vấn đề là họ không thực hiện OCR truyền thống ... thuật toán OCR của họ có thể tạo ra các từ khác nhau cho một "từ" trên hình ảnh. Tất cả những gì họ sử dụng nó là tìm kiếm, vì vậy điều này tốt cho họ, nhưng không tốt cho việc sử dụng nó như một công cụ nhận dạng. (Mặc dù chúng cho bạn trọng lượng cho mỗi từ thay thế, vì vậy có lẽ bạn có thể sử dụng từ đó)


11

Ngoài ra, Evernote rõ ràng không quyết định một hình ảnh cụ thể tương đương với chính xác một từ - ví dụ: Evernote không xác định rằng một hình ảnh cụ thể là "đầu mối" và không phải là "do". Thay vào đó, nó sẽ theo dõi cả hai và tìm kiếm một trong hai sẽ trả về cùng một hình ảnh. Do đó, không có cách nào để có được một văn bản tương đương toàn văn bản vì Evernote không quyết định toàn bộ văn bản thực sự là gì, chỉ có thể là gì.


5

evernote trả một khoản tiền kha khá cho người tạo ra các công cụ ocr HOẶC trả một khoản tiền kha khá để đặt một cái gì đó làm việc cùng nhau. do đó, tôi thực sự nghi ngờ rằng họ sẽ cho phép bạn lấy văn bản trích xuất (+ định vị trên hình ảnh).

(có thể là một mô hình kinh doanh, để quét hình ảnh người khác và cung cấp ocr tốt :))

Vì vậy, câu trả lời là không.


3
Điều này không đúng. Có API để nhận chính xác thông tin này. Xem câu trả lời của tôi.
Peter tibraný

2

Tôi không chắc bạn cần bao nhiêu sự tinh tế, nhưng vì tôi cũng sử dụng Adobe Acrobat, tôi chỉ cần nhấp chuột phải vào tệp đính kèm Evernote của mình để mở bằng Acrobat.

Sau đó, từ bên trong Acrobat, tôi chọn "Tài liệu | Nhận dạng văn bản OCR", sau đó lưu tài liệu dưới dạng văn bản thuần túy.

Điều này hoạt động tốt với tôi vì tôi chỉ cần một chuyển đổi OCR không thường xuyên.


1

Nếu bạn có thể lấy tất cả hình ảnh ra khỏi Evernote, bạn có thể thực hiện OCR với Google Docs.

Bạn có thể tải lên một thư mục hình ảnh lên Google Docs và chuyển chúng thành Tài liệu, trong đó sẽ chứa cả hình ảnh và văn bản OCRed.

Sau đó, bạn có thể tải xuống hàng loạt tất cả các tài liệu này dưới dạng văn bản thuần túy, sẽ loại bỏ hình ảnh.

Nếu bạn đặt tên cho tất cả các hình ảnh Evernote bằng hàm băm (ví dụ md5), có thể dễ dàng liên kết các tệp văn bản đơn giản được tải xuống từ Google Docs với hình ảnh gốc.


0

Tôi đang dùng Windows và sử dụng Adobe Acrobat Pro và Word nên tôi làm như sau:

  1. nếu tệp không được lưu dưới dạng JPG thì hãy nhấp vào biểu tượng nhãn cầu ở góc trên bên trái của hình ảnh trong Evernote để mở tệp trong Trình xem ảnh và nhấp vào Tệp> "Tạo bản sao" để lưu dưới dạng JPG
  2. duyệt đến tệp hình ảnh trong Explorer
  3. nhấp chuột phải vào nó và chọn Convert to Adobe PDF (tệp sẽ mở trong Acrobat)
  4. bấm vào Tệp> Lưu dưới dạng và chọn Định dạng văn bản có định dạng từ danh sách thả xuống "Lưu dưới dạng" để lưu dưới dạng tệp văn bản có định dạng (mất một phút để xử lý tệp)
  5. duyệt đến tệp RTF trong Explorer và nhấp đúp để mở trong Word
  6. chỉnh sửa khi cần thiết

Đây dường như là lời khuyên về cách trích xuất văn bản từ một tệp hình ảnh nhất định, không phải là hình ảnh trong Evernote. Bạn có thể làm rõ làm thế nào điều này trả lời câu hỏi ban đầu, và làm như vậy theo cách mà (các) câu trả lời trước và được chấp nhận không?
music2myear
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.