Văn bản vật lý thành văn bản kỹ thuật số


9

Trước tiên, hãy để tôi đặt tiền tố cho câu hỏi này, tôi không biết trang web StackExchange nào phù hợp nhất cho câu hỏi này, nhưng tôi nghĩ LifeHacks có thể hoạt động ...

Vào năm 1998, gia đình của mẹ tôi đã có một cuộc đoàn tụ gia đình lớn (bà cố của tôi có mười đứa con nên đó thực sự là một cuộc tụ họp lớn). Một trong những người xa xôi của tôi đã viết một loại sách về lịch sử gia đình của chúng tôi cho cuộc đoàn tụ này và mẹ tôi đã cho tôi cuốn sách để đọc. Tôi không thể tin nó lớn như thế nào và bao nhiêu nghiên cứu đã đi vào cuốn sách. Tôi muốn tìm ra một cách để có được toàn bộ cuốn sách trên một trang web mà tôi sẽ tạo ra nơi mà sau đó tôi có thể chia sẻ nó với mọi người trong gia đình của chúng tôi và cuối cùng lưu giữ lịch sử lâu hơn cuốn sách mỏng manh này.

Với hy vọng tôi không phải gõ từng chữ trong toàn bộ cuốn sách 300 trang này, có cách nào để tôi có thể quét các trang và lấy chúng trong văn bản kỹ thuật số không? Rõ ràng là tôi chỉ có thể chụp ảnh và tạo trang web bằng cách sử dụng hình ảnh nhưng tôi cảm thấy sẽ có ích hơn nếu có nó dưới dạng văn bản thực tế vì sau đó nó có thể hiển thị trên Google tìm kiếm tốt hơn khi ai đó tìm kiếm tên thành viên gia đình hoặc đại loại như thế. Ngoài ra, nếu ai đó trong gia đình có thể thực hiện một dự án nghiên cứu về gia đình chúng tôi, họ sẽ có thể sao chép một số văn bản và tham khảo nó dễ dàng hơn.

Vì vậy, có ai biết cách tốt nhất tôi có thể đưa cuốn sách gia đình cũ này vào văn bản kỹ thuật số?

Trang đầu sách

Sách chỉ độ dày

Câu trả lời:


14

Sử dụng điện thoại Android và tính năng " Google Lens. " Gần đây đã được thêm vào ứng dụng ảnh và phần đánh giá ảnh máy ảnh.

OCR qua Google Lens khá tuyệt vời và chính xác hơn bất kỳ phần mềm OCR nào tôi từng sử dụng.

Dưới đây là một số ảnh chụp màn hình phác thảo quy trình sử dụng Nokia 3 giá rẻ (100 USD) , điện thoại tốt nhất mà tôi đã từng sử dụng kể từ khi Nexus 4 yêu quý của tôi từ bỏ bóng ma.

Tôi sẽ trình bày chi tiết bản quét OCR mẫu của một cuốn sách về hình thái học Hy Lạp in năm 1976 mà tôi không dám xé ra để quét, dường như có mật độ ký tự và kiểu chữ tương tự.

Tôi đã chụp bức ảnh gốc này trong điều kiện ánh sáng lý tưởng, sử dụng tất cả các cài đặt tự động trên máy ảnh điện thoại, không có kỹ thuật hoặc đồ đạc đặc biệt nào để cải thiện kết quả đã được sử dụng, bạn có thể nói đó chỉ là một bức ảnh điện thoại được chụp một cách nghiệp dư trang sách . (Chỉ cần đảm bảo văn bản được tập trung, không OCR sẽ giải mã văn bản lệch tiêu cự mờ)

nhập mô tả hình ảnh ở đây

Nhấp vào biểu tượng ống kính Google, khả dụng qua phần xem trước sau khi chụp ảnh hoặc trên chính ảnh bằng ứng dụng Google photos

nhập mô tả hình ảnh ở đây

Đây là -Skynet- Ý ^M^M^M^M^M^Mtôi là, Google Lens thực hiện chức năng quét ma thuật của nó (các chấm hơi rùng rợn nhưng họ phải làm gì đó để cho bạn biết rằng AI google đang làm việc của nó, tôi đoán vậy)

nhập mô tả hình ảnh ở đây

Khi hình ảnh được quét, bạn sẽ tìm thấy các khu vực văn bản mà Google Lens tìm thấy trên hình ảnh được phác thảo rõ ràng và văn bản của chúng đã được trích xuất ở nửa dưới của màn hình. nếu bạn chỉ muốn một số khu vực chứ không phải khu vực khác, chỉ cần chạm vào lựa chọn của bạn để kích hoạt / hủy kích hoạt chúng.

Nếu bạn chạm vào văn bản được trích xuất, nó sẽ được đặt vào khay nhớ tạm của bạn để sao chép / dán lòng tốt ở bất cứ đâu trên điện thoại của bạn.

nhập mô tả hình ảnh ở đây

Sau đó, chỉ cần dán văn bản trên tài liệu Google docs . Ở đó, bạn có thể: - sửa bất kỳ lỗi nào ngay tại đó hoặc trên PC của bạn, - chia sẻ tài liệu với nội dung trái tim của bạn, - xuất bản dưới dạng trang web với cập nhật trực tiếp các chỉnh sửa của bạn, hoặc - xuất thành - văn bản đơn giản, - tài liệu từ , - tài liệu văn phòng mở, - sách điện tử epub tương thích với văn bản phản chiếu, hoặc - PDF tốt 'Non-DRMd PDF

Có thể lập luận rằng đây có lẽ là con đường ngắn nhất để xuất bản, với các lựa chọn đầu ra rộng nhất có thể.

Bạn có thể làm tất cả từ một thiết bị duy nhất, (điện thoại Android có cài đặt ứng dụng phù hợp) và được thực hiện ngay lập tức với tốc độ chính xác cao, về cơ bản là miễn phí.

Đây là tài liệu Google dán Fragment
nhập mô tả hình ảnh ở đây

Đây là chia sẻ URL tài liệu Google, hãy bình luận. Bạn cũng có thể nhờ ai đó giúp bạn chỉnh sửa tài liệu từ xa và đồng thời.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivedk

Cuối cùng, đây là một trang web Google Sites được xuất bản bằng tài liệu nói trên dưới dạng nguồn được liên kết

https://sites.google.com/h-lo.me/ocrsample

Đó là https, máy tính để bàn và thiết bị di động được bật và tùy thuộc vào thị hiếu, thường không phải là đau mắt. Không tệ trong tổng số 15 phút làm việc và không có mã hóa gì.


Có một sàng lọc còn lại và đó là tạo các đoạn thích hợp trên tài liệu Google, vì Google Lens chèn trả lại khó khăn sau mỗi dòng văn bản được trích xuất, khiến mỗi dòng đều là đoạn riêng và điều này sẽ trở thành vấn đề nếu bạn muốn sử dụng Các tính năng của Google Docs như mục lục hoặc khi bạn xuất tài liệu của mình sang một cuốn sách điện tử quán rượu tương thích loại (làm rối văn bản phản chiếu)

Bạn chỉ có thể tham gia mọi dòng khi thích hợp bằng cách nhấn phím xóa lùi trên mỗi dòng bắt đầu hoặc điều này có thể được tự động hóa với một tập lệnh.

Vì vậy, tôi đang viết một phần bổ sung tập lệnh ứng dụng mà tôi sẽ xuất bản sớm để tự động hóa quy trình này. Tôi sẽ cho bạn biết ở đây khi nó hoàn thành.


Chi tiết rõ ràng. Tôi thích giải pháp miễn phí này. Cảm ơn!
Kyle Bridenstine

Hân hạnh! Bạn thậm chí có thể có mọi thứ bạn cần rồi! :)
hlecuanda

Đối với một cuốn sách dày, đây là một cách tiếp cận thực sự tốn nhiều công sức: bạn phải lật từng trang một cách thủ công và sau đó chụp ảnh nó.
Hobbes

6

Bạn có thể làm điều này trong các giai đoạn. Bắt đầu với việc đặt mọi thứ trực tuyến dưới dạng quét trang và cập nhật khi có thể. Liên kết lược nhựa cerlox ™ giúp tách rời và đưa nó trở lại liên kết dễ dàng.

Vì bản in có vẻ là loại serif bình thường có cùng kích thước, các bản quét có thể được số hóa bằng cách sử dụng phần mềm Nhận dạng Ký tự Quang học. OCR có thể cung cấp cho bạn một tệp văn bản nháp mà bạn có thể đọc và xuất bản trên trang web cho mẫu cuối cùng của nó.

Đồng thời, bạn có thể sắp xếp các hình ảnh và tài liệu hình ảnh khác.

Bạn có thể làm điều này khi thời gian / tài nguyên có sẵn cho bạn cho dự án.


Tương tự như câu trả lời trước, nhưng không chi tiết bằng.
Trajan Espelien

@TrajanEspelien Câu trả lời nào trước đây? Kiểm tra dấu thời gian. Câu trả lời là đầu tiên, hai ngày trước khi đệ trình hiecuanda. :)
Stan

Vâng nhưng nó không có nhiều chi tiết như câu trả lời khác, đó là lý do tại sao tôi chấp nhận câu trả lời khác. Đây không phải là máy chủ đầu tiên đến .. đó là câu trả lời tốt nhất.
Kyle Bridenstine

@KyleBridenstine Không đùa! Tôi cũng ủng hộ hiecuanda. Đó là một câu trả lời tuyệt vời. Nhân tiện, nếu bạn không có điện thoại Android hoặc không thể truy cập Glass thì sao? Tôi đã đưa ra một câu trả lời chung cho câu hỏi. :)
Stan

1
@KyleBridenstine Cảm ơn bạn vì những lời tốt đẹp. Chúng ta đồng ý. Tôi nghĩ rằng bạn đã làm điều đúng đắn bằng cách chờ đợi. Câu trả lời đầu tiên là KHÔNG tốt nhất (trừ khi nó đối với một số lý do. Có thời hạn, sau khi tất cả.) Tôi gửi liên kết cho câu hỏi và câu trả lời tuyệt vời hiecuanda để một đồng nghiệp người đã làm điều tương tự với một đống khổng lồ của hồ sơ học tập từ Brazil!
Stan

2

Một số câu trả lời tốt ở đây để tiếp cận nó cho mình.

Tôi muốn thêm kinh nghiệm của tôi về việc trả tiền cho người khác để làm điều đó cho bạn.

Tôi đã sử dụng Digitize My Books ở Vương quốc Anh (Tôi là người Anh dựa trên chính mình).

Tôi rất hài lòng với kết quả: Mỗi cuốn sách được trả lại dưới dạng PDF có văn bản có thể tìm kiếm (và có thể sao chép). Một kỹ thuật PDF tiêu chuẩn được sử dụng theo đó hình ảnh gốc cho mỗi trang được giữ lại nhưng với lớp phủ văn bản, để bạn có thể đánh dấu văn bản gốc trên trang. Giá trị rất tốt. Là một người nước ngoài từ Vương quốc Anh, bạn vẫn có thể gửi cho họ những cuốn sách.

Họ cũng cung cấp một tùy chọn cho cuốn sách ở định dạng tài liệu từ có thể chỉnh sửa, với chi phí bổ sung nhưng rất hợp lý.

Nếu bạn không yêu cầu trả lại bản gốc, thì tùy chọn rẻ nhất sẽ là chọn quét phá hoại. Đây là nơi các trang được lấy riêng từ sách và được quét. Theo mặc định, cuốn sách gốc không được trả lại, mặc dù tôi tin rằng bạn có thể yêu cầu nó, có thể với chi phí bổ sung (ví dụ: cho bưu chính trở lại) nhưng các trang sẽ bị lỏng, đã bị xóa để được quét riêng lẻ. Quét phá hủy là tùy chọn tôi chọn cho tất cả các sách của mình và tôi không yêu cầu trả lại bản gốc.

Họ cũng cung cấp sao chép không phá hủy nếu bạn yêu cầu bản gốc, nhưng chi phí cao hơn. Họ cũng chấp nhận quét kỹ thuật số của riêng bạn nếu bạn đã tự quét một cuốn sách - họ có thể biến nó thành tài liệu PDF hoặc Word có thể tìm kiếm, sao chép.

Có một cái nhìn xung quanh trang web của họ. Tôi thực sự nghĩ rằng đây là lựa chọn tốt nhất: dành tiền để tiết kiệm thời gian, thay vì dành thời gian để tiết kiệm tiền.

Tôi không làm việc cho Số hóa Sách của tôi, cũng không có bất kỳ lợi ích tài chính nào đối với chúng (cổ đông hoặc mặt khác).

Ban đầu, tôi đã bắt đầu tự "quét" sách, bằng cách chụp ảnh bằng Máy ảnh DSLR (chụp ảnh nhanh hơn quét phẳng) với mỗi trang được mở bằng một clip clipboard và blu-tak. Nhưng tôi thấy điều này là khá tốn công.

Nếu bạn vẫn muốn tự mình làm điều đó, ScanTailor là một Ứng dụng Windows nguồn mở sẽ định dạng, chia đôi trang / cặp trang như được quét thành các trang riêng lẻ, làm thẳng và "nhúng" chúng. Vì vậy, các trang kết quả xuất hiện phẳng và thẳng như mong muốn, tuy nhiên nó không làm OCR: kết quả vẫn là hình ảnh bitmap. Nhưng ít nhất nó cũng đi theo một cách nào đó để tự động hóa hàng loạt để dọn dẹp bất kỳ sự biến dạng nào của các trang, đặc biệt là sao chép không phá hủy, nơi người ta khó có thể sắp xếp các trang hoàn toàn phẳng cho những cuốn sách lớn.

Đã cập nhật

Đã thêm thông tin về các tùy chọn quét được cung cấp bởi một dịch vụ. ScanTailor thêm thông tin. Sửa lỗi ngữ pháp.


1

Cách nhanh nhất để làm điều này là liên hệ với người thân của bạn và xem liệu họ có còn các tệp gốc mà họ đã sử dụng để tạo sách đó không. Từ ảnh trên trang nhất tôi muốn nói nó được tạo trên máy tính. Chuyển đổi từ {chèn gói trình xử lý văn bản thực sự cũ ở đây} sang định dạng hiện tại và bạn đã hoàn tất.

Cách nhanh thứ hai để biến một chồng tài liệu in thành tài liệu kỹ thuật số:

  1. Loại bỏ các ràng buộc.
  2. Cắt cạnh trái của các trang để thoát khỏi các lỗ. Lỗ can thiệp vào một bộ nạp tài liệu.
  3. Đi qua cuốn sách và mở ra bất kỳ nếp gấp và thiệt hại khác sẽ can thiệp vào bộ nạp tài liệu.
  4. Tìm bất kỳ máy in song công hợp lý hiện đại nào có bộ nạp tài liệu và tính năng quét. Quét sang PDF.

Sau đó sử dụng bất kỳ gói OCR nào để biến các trang được quét thành tệp Word. Tôi sử dụng các tính năng OCR trong phiên bản đầy đủ của Adobe Acrobat cho mục đích này, nhưng có nhiều công cụ OCR xung quanh.


0

Bạn có thể muốn thử một dịch vụ rất rẻ tiền: reserved-your-memories.info. Khi tự mình thực hiện, tôi sử dụng máy quét của mình để quét vào OmniPage, một chương trình OCR, sau đó lưu dưới dạng tệp pdf hoàn toàn có thể tìm kiếm được. Vì ấn phẩm của bạn là lược nhựa bị ràng buộc, bạn có thể dễ dàng tháo rời để quét từng trang riêng lẻ và sau đó rebind. Chụp ảnh như được nêu trong các gợi ý ở trên cũng rất khả thi - một cách tốt trong số nhiều cách tiếp cận.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.