Chuyển đổi DJVU sang PDF


39

Tôi muốn chuyển đổi một tài liệu DJVU thành một tài liệu PDF, tách và giữ lại lớp văn bảnhình ảnh trong khi vẫn giữ cấu trúc từ DJVU. Làm thế nào tôi có thể làm điều này trong Ubuntu?

(Sau đó tôi sẽ sử dụng Calibre để chuyển đổi sang ePub / Mobi, vì vậy nếu có một trình cắm Calibre cho toàn bộ quá trình này sẽ hoàn hảo cho tôi!)

Lưu ý1: In từ Evince, xuất từ ​​DJview hoặc bất cứ thứ gì sử dụng gói ddjvu , không phải là giải pháp thích hợp vì chúng loại bỏ lớp văn bản, chỉ lưu hình ảnh.

Lưu ý2 : Sử dụng DJVULibre dường như chỉ trích xuất lớp văn bản và hình ảnh không được trích xuất . Tương tự, sao chép văn bản "thủ công" sẽ mất cả cấu trúc tài liệu và hình ảnh.

Câu trả lời:


37

Phương pháp 1

Chỉ cần sử dụng DJView và xuất dưới dạng PDF

  1. Trình quản lý gói Goto Synaptic
  2. Cài đặt DJview4
  3. Chạy DJview (Ứng dụng - Đồ họa - DJView4)
  4. Mở tài liệu .djvu của bạn
  5. : Menu - Xuất dưới dạng: PDF

Phương pháp 2

Mở tệp djvu trong evince
Chọn in ----> in để
thay đổi tệp .ps thành .pdf và nhấp vào in

Phương pháp 3

  1. Trình quản lý gói Goto Synaptic
  2. cài đặt, dựng lên

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Thiết bị đầu cuối Goto và viết

     sudo apt-get install libtiff-tools
    
  4. Goto thư mục chứa tập tin djvu. Nhấp chuột phải. Tùy chọn mở Goto trong thiết bị đầu cuối. Nhấn vào nó. Một thiết bị đầu cuối sẽ mở.

  5. Trong thiết bị đầu cuối đó viết

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Phương pháp 4

Ngoài ra còn có một công cụ chuyển đổi trực tuyến DjVu sang PDF


@Ashu Bạn có chắc cái này lấy hình ảnh không?
hayd

Vâng phương pháp 1 và 2 đã làm việc cho tôi. đã không thử trong 3 và .4
Ashu

@Ashu là nó trích xuất hình ảnh hay chỉ đơn giản là sao chép toàn bộ trang? (điều đó có ý nghĩa không?)
hayd

Bạn đã thử phương pháp nào chưa? Hãy dùng thử và xem nó có hoạt động không
Ashu

2
Nó không (lấy hình ảnh hoặc văn bản).
hayd

17

Đây là một cách, sẽ yêu cầu một số công cụ không phổ biến:

  1. ocrodjvu
  2. pdfbead , có yêu cầu riêng của Google mà Google có thể tìm thấy

Chúng ta có thể sử dụng djvu2hocrlệnh (từ ocrodjvugói) để trích xuất lớp văn bản ẩn từ tệp DjVu (nó không thực hiện bất kỳ OCR nào hoặc tương tự, nó chỉ trích xuất lớp văn bản có hình học), tức là:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed can thiệp sửa tên lớp trong hOCR đầu ra (chỉ là tệp HTML đơn giản)

Bây giờ chúng tôi trích xuất trang DjVu sang định dạng TIFF với:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

để chúng tôi kết thúc với các tệp này trong thư mục công việc:

sample.djvu
pg10.html
pg10.tif

Đây là nơi pdfbeadsđến trong trò chơi, và chúng tôi thực hiện đơn giản:

pdfbeads -o pg10.pdf

sau đó chương trình tiện lợi này sẽ xử lý tất cả mọi thứ trong thư mục này (tệp HTML và TIFF có cùng tên cơ sở) và tạo tệp PDF đầu ra với một số sản phẩm phụ:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

trùng với tệp DjVu đầu vào và có lớp văn bản bên trong:

nhập mô tả hình ảnh ở đây

Tóm tắt ý kiến:

Các bình luận dài bên dưới thảo luận về việc thể hiện các hình ảnh nhỏ hơn từ trang tài liệu DjVu dưới dạng các đối tượng riêng biệt, điều này không dễ thực hiện vì trang tài liệu DjVu chỉ là một hình ảnh duy nhất với lớp văn bản tùy chọn, không có "thông tin" về các hình ảnh nhỏ hơn như các đối tượng riêng biệt. Nếu tài liệu DjVu có hình ảnh màu, thì chúng thường sẽ được đặt trên lớp nền; trong trường hợp này, người dùng có thể tận dụng các công cụ như ddjvu(chỉ trích xuất lớp nền) và imagemagick(tự động cắt) để chỉ xuất hình ảnh thay vì toàn bộ khung vẽ, nhưng không thể tự động tạo ra đầu ra PDF

Một cách tiếp cận khác, nhưng cách tiếp cận chậm hơn là sử dụng các công cụ GUI OCR thông thường. gscan2pdf(> 1.0) được đề xuất là ứng cử viên có thể cho Linux PC


Tôi có đúng không khi nghĩ rằng điều này không trích xuất dữ liệu ảnh riêng lẻ mà chỉ là hình ảnh của toàn bộ trang?
hayd

"Dữ liệu ảnh cá nhân" nghĩa là gì khi bạn đề cập đến cấu trúc tệp DjVu?
zetah

liệu nó có thể cắt các hình ảnh ra khỏi tài liệu dưới dạng các hình ảnh nhỏ hơn được đặt ở trên cùng của tệp PDF hay không (ví dụ để chúng có thể xuất sang HTML)
hayd

Không có định nghĩa như vậy trong cấu trúc tệp DjVu. Hình ảnh ví dụ trên trong tài liệu DjVu ban đầu được "đặt" trên lớp nền trước / mặt nạ cùng với hình ảnh ký tự và có lớp văn bản riêng biệt được trích xuất như được giải thích. Nếu tài liệu DjVu có (các) hình ảnh màu, chúng sẽ được đặt trên lớp nền trên toàn bộ trang (trong tệp DjVu ghép chung). Mặc dù có thể hiểu rằng bạn có thể mong đợi rằng hình ảnh trong trang tài liệu DjVu là những đối tượng riêng biệt mà chúng không phải - hãy xem trang tài liệu DjVU dưới dạng hình ảnh duy nhất với lớp văn bản tùy chọn, về cơ bản đó là gì.
zetah

1
@zetah - thông tin bổ sung mà bạn đã đưa ra trong các nhận xét nên thực sự được thêm vào câu trả lời vì nó cung cấp thông tin có giá trị về vị trí hình ảnh trong cấu trúc và những gì bạn mong đợi khi trích xuất.
fossfreedom

4

djvu2pdf nhưng nó dựa vào ghostscript nên có thể là một tùy chọn in khác. Tôi vẫn đề nghị bạn cho nó một cái nhìn, chỉ trong trường hợp nó thông minh hơn là tôi cho nó tín dụng.

Nó không có trong repos nhưng bạn có thể tải xuống một cuộc tranh luận từ trang web của nhà sản xuất: http://0x2a.at/s/projects/djvu2pdf

** Chèn thông báo bắt buộc về việc tải xuống / cài đặt mọi thứ từ bên ngoài repos tại đây **


1
Tôi sợ djvu2pdf sử dụng ddjvu để xuất sang PDF, xuất hình ảnh mà không có văn bản.
hayd

4

Sử dụng DJVULibre , người ta có thể trích xuất lớp văn bản thông qua terminallệnh:

djvutxt myfile.djvu > myfile-ocr.txt hoặc là djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(cả hai đều làm điều tương tự, và đã được tìm thấy ở đây )

Định dạng đòi hỏi một số nỗ lực (vì nhiều biểu tượng không được chuyển đổi đúng cách) và hình ảnh không được phục hồi .


Điều này tốt cho việc chuyển đổi sách không có hình ảnh ở định dạng DJVU, nhưng không phải cho các tài liệu có hình ảnh. Đây là giải pháp hiện tại cho tôi vào lúc này và là người duy nhất trích xuất văn bản. Một cách để giữ định dạng và hình ảnh sẽ được ưa thích hơn nhiều!
hayd

0

http://www.djvu-pdf.com/ - Sử dụng trang web này, bạn có thể chuyển đổi djvu sang pdf.


tôi đã đăng trang web đó rồi
Ashu

Đây có vẻ là một trang web giả mạo. Tôi nhận được thông báo này sau khi chuyển đổi: Tôi xin lỗi, bạn không thể tải xuống tệp đó.
corev

0

Cách dễ nhất: sử dụng gscan2pdf để nhập djvu, sau đó OCR với tesseract và cuối cùng lưu nó dưới dạng pdf. Văn bản OCR trong pdf có thể hơi khác so với djvu ban đầu và việc chuyển đổi có thể mất một chút thời gian, nhưng phương pháp này là không có trí tuệ và nó hoạt động.


1
Xin chào, để làm cho điều này trở nên hữu ích hơn, bạn có thể cung cấp thêm một chút chi tiết về nơi lấy và sử dụng gscan2pdf và tesseract.
NGRhodes

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.