Giải pháp OCR thực tế để chuyển đổi một cuốn sách lớn sang định dạng kỹ thuật số?

12

Tôi đã qua chỗ của ông bà tôi vào cuối tuần qua. Bà tôi đã lôi cuốn sách khổng lồ (~ 1400 trang) này về lịch sử gia đình của bà từ năm 1630 trở đi. Tôi là một người khổng lồ, tôi nghĩ rằng sẽ rất khó để có tất cả thông tin được lưu trữ trong cơ sở dữ liệu và có sẵn trên web. Tôi có thể xử lý tất cả các chương trình web và các biểu thức thông thường và những gì không, nhưng điều tôi không biết là cách tốt nhất để chuyển văn bản từ sách sang máy tính.

Tôi biết một số loại OCR sẽ là cần thiết, từ nghiên cứu nhỏ mà tôi đã thực hiện, có vẻ như các lựa chọn của tôi là:

chụp ảnh mọi trang bằng máy ảnh sau đó xử lý ảnh bằng phần mềm OCR
sử dụng máy quét để quét từng trang, sau đó xử lý bằng phần mềm OCR
sử dụng một số loại thiết bị cầm tay, như thế này .

Có ai có bất kỳ ý tưởng về cách tốt nhất để giải quyết vấn đề này? Tôi không muốn phá hủy cuốn sách, vì theo như tôi biết, nó không thể bị thay thế. Đây có lẽ là lần duy nhất tôi sẽ quét một cuốn sách lớn, vì vậy tôi không nghĩ rằng tôi muốn chi hơn 250 đô la cho bất kỳ loại thiết bị nào. Tôi không ngại một số nỗ lực thủ công ở đây (tôi nhận ra điều này rất có thể sẽ mất vài tháng), nhưng tôi muốn tìm ra phương pháp hiệu quả nhất có thể.

Lưu ý về cuốn sách: Nó chỉ khoảng 20 tuổi, vì vậy nó có hình dạng khá tốt. Đó là màu đơn sắc và các trang chưa bắt đầu màu vàng. Vì nó quá lớn, tôi lo lắng về các bóng có thể xảy ra khi văn bản xuống gần với ràng buộc.

ocr

1

Một lưu ý nữa, nếu cuốn sách chỉ mới 20 tuổi và thông tin quay trở lại những năm 1600, thì tài liệu gốc ở đâu? Đó có thể là tốt đẹp để chụp là tốt!

— Craig

Vâng, điều đó cũng sẽ rất tuyệt. Tôi sẽ xem liệu tôi có thể theo dõi tác giả ban đầu không.

8

Tôi đã bắt gặp điều này trên Lifehacker một thời gian trước đây và nó là một trong những dự án DIY hàng đầu của tôi kể từ đó.

nhập mô tả hình ảnh ở đây

Thay thế iPhone bằng bất kỳ máy ảnh hoặc hình ảnh nào và bạn có được một đống jpeg độ phân giải cao đẹp sẵn sàng cho bạn đến OCR với bất kỳ phần mềm nào, thậm chí (urks!) MS Office ...;)

Rẻ. Có hiệu lực. Tự làm. Bạn không thể đánh bại một ý tưởng như thế này.

EDIT: Nhận xét nêu lên một số điểm về bóng tối, uốn cong trang, v.v ... Khá dễ dàng giải quyết cho bất kỳ ai có văn bản thư viện sao chép theo nghĩa đen.

Thêm nhiều nguồn sáng để chiếu sáng cuốn sách và loại bỏ bóng tối.

xiên cuốn sách ở góc 90 độ vào các trang không cuộn tròn về phía các ràng buộc ở giữa. Nó cũng bảo tồn các ràng buộc.

Tôi sẽ xem liệu tôi có thể đưa ra một ví dụ và tự mình thiết lập một ví dụ không.

EDIT 2: mẫu đã tải lên về cách bạn nên giữ sách và cũng chú ý nguồn sáng từ bên trái.

nhập mô tả hình ảnh ở đây

— caliban
nguồn

Điều đó thật tuyệt! Ước gì tôi có thể làm điều đó :)

— alex

Tuy nhiên, bạn cần một máy ảnh thực sự để làm điều đó, và chất lượng tốt, hoặc bạn sẽ kết thúc bằng hình ảnh bạn không thể khai thác, đặc biệt là từ một cuốn sách rất cũ. Vì vậy, nó là xa giá rẻ.

— Gnoupi

Rất thú vị. Tôi tự hỏi làm thế nào điều này sẽ làm việc với một cuốn sách, xem xét các bóng có lẽ sẽ có giữa các trang.

Nếu các trang bị uốn cong hoặc có bóng, bạn sẽ gặp vấn đề khi nhận phần mềm OCR để nhận dạng các chữ cái.

— alex

thêm nhiều nguồn sáng để chiếu sáng cuốn sách và loại bỏ bóng tối. nghiêng cuốn sách ở 90 độ để các trang không cuộn tròn về phía các ràng buộc ở giữa. Đó là lẽ thường tình đơn giản, chúng tôi làm điều đó suốt thời gian học đại học chụp ảnh các văn bản thư viện.

— caliban

3

Từ những gì tôi biết, ABBYY tạo ra phần mềm OCR tốt nhất, nhưng nó không miễn phí. Bạn nên thử sử dụng phiên bản dùng thử của ABBYY FineReader , có thể nó sẽ giúp bạn.

— alex
nguồn

1

Bạn sẽ cần phải chụp ảnh bằng cách nào đó. Nhiều dịch vụ tồn tại để làm điều này cho bạn. Bạn cũng sẽ cần một người quen thuộc với nội dung của văn bản để đọc lại vì OCR vẫn chưa hoàn hảo. Đặc biệt với bất cứ điều gì viết tay.

Những người khác đang thảo luận về câu hỏi của bạn ở đây: http://ask.metafilter.com/92506/scan-my-books

Một số công ty sẽ làm điều này cho bạn: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html

Một số phần mềm miễn phí: http://doad.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html

— NickSentowski
nguồn

1

Đối với một dự án lớn và quan trọng đối với bạn và gia đình của bạn như thế này, Máy quét sách DIY có thể là cách tốt nhất, một số thiết kế thậm chí là công cụ lật trang thể thao - http://www.diybookscanner.org/ Cái này không hỗ trợ OCR , nhưng bắn 600 trang một giờ và bạn có thể chạy nó qua OCR sau khi thực tế http://hackaday.com/2011/07/18/diy-book-scanner- Processes- 600 -pageshour /

— Xaq Fixx
nguồn

0

Bạn có thể muốn xem liệu một trường đại học gần bạn có toàn bộ máy quét sách và sau đó cầu xin / mua chuộc một sinh viên để đặt cuốn sách của bạn thông qua nó.

— Chris Nava
nguồn

0

Tôi muốn giới thiệu một máy quét hình phẳng được trang bị để quét sách hoặc toàn bộ máy quét sách như được đề cập bởi Chris.

Nếu bạn có thể, hãy để hình ảnh của bạn được biên dịch thành định dạng TIFF vì đó là tiêu chuẩn ngành khi nói đến hệ thống quản lý tài liệu.

Để thực hiện OCR, tôi muốn giới thiệu OCR tesseract vì đây là khuôn khổ Google triển khai cho dự án sách của họ.

— Greg Buehler
nguồn

0

Mặc dù nghe có vẻ hấp dẫn để tự động hóa quy trình, bạn có thể muốn đầu tư nhiều thời gian và công sức hơn vì cuốn sách đặc biệt này là vấn đề cá nhân. OCR sẽ thực hiện hàng loạt nhưng bạn sẽ phải đọc từng trang và so sánh với bản gốc. Hãy nhớ rằng, những sai lầm của tác giả là một phần của thỏa thuận, đừng sửa chúng (tạo chú thích nếu bạn cảm thấy quá nghiêng). mất thời gian của bạn, đừng đặt mình dưới áp lực, quét sách là công việc lừa nhưng trả tiền kỹ lưỡng và bạn sẽ kết thúc với một bản sao kỹ thuật số tốt của gia đình bạn. chúc may mắn với nỗ lực của bạn :)

Thật ra, đó là một điểm rất tốt. Tôi đã không cân nhắc việc cung cấp nội dung gốc của cuốn sách bằng kỹ thuật số, nhưng miễn là tôi có nó, tôi cũng có thể tạo một phiên bản .pdf.

Tại sao lại là PDF? nghĩ HTML. và bạn cũng có thể giữ bản quét gốc mặc dù bạn sẽ có một lượng dữ liệu khổng lồ.

Ý tưởng của tôi là có tất cả thông tin khai sinh / dòng dõi trong cơ sở dữ liệu, vì vậy tôi có thể tạo một lối vào web giúp điều hướng / tìm kiếm / cập nhật dễ dàng hơn. Tôi có kế hoạch làm việc với bất kỳ lỗi chính tả nào trong phiên bản đó. Ngoài ra, tôi có một số anh em họ không có trong đó và thật tuyệt khi thêm họ. Tôi đã suy nghĩ pdf bởi vì thật tuyệt khi có một cái gì đó trông giống như cuốn sách gốc với số trang gốc và nguyên vẹn như vậy. Phiên bản đó tôi sẽ để yên và giữ tất cả các lỗi chính tả trong cuốn sách.

0

Tại nơi làm việc, chúng tôi sử dụng máy quét sách Plustek Optibook 3600 có giá khoảng 250 đô la .
Về cơ bản, nó là một máy quét giường phẳng tiêu chuẩn nhưng với tấm kính nằm ngay sát mép máy quét để trang sách có thể được đặt phẳng trên đĩa. Điều này giúp loại bỏ bóng cột sống và tránh làm hỏng sách.

nhập mô tả hình ảnh ở đây

— xương chậu
nguồn

Bạn đã bao giờ thử sử dụng nó với một cuốn sách thực sự dày? Nó giống như dày 3 inch.

Nếu bạn có thể mở nó 90 ° với trang phẳng một cách hợp lý thì nó sẽ ổn. Hãy thử trên một cạnh bàn.

— xương chậu