Làm cách nào để lưu tệp PDF hình ảnh dưới dạng hình ảnh?


33

Tôi có một tệp PDF chứa hình ảnh quét tài liệu. Tôi muốn lưu nội dung của tệp PDF này dưới dạng hình ảnh để sau đó tôi có thể chạy nó thông qua chương trình OCR chỉ chấp nhận các tệp loại .jpg, .png và .gif.

Làm cách nào để lưu / chuyển đổi tệp PDF này sang một trong những định dạng hình ảnh đó?

EDIT: Một cách tôi đã tìm thấy để làm điều này là nhấp vào từng trang. Sao chép vào clipboard. Dán vào Paint.net và sau đó lưu lại. Tuy nhiên, điều này là cồng kềnh vì nó xuất hiện, bạn chỉ có thể chọn một trang tại một thời điểm trong Acrobat Reader.

Câu trả lời:


20

Xin hãy chú ý đến câu trả lời của pooryorick , trong đó ông chỉ ra câu trả lời của sleske thực sự là một câu trả lời tốt hơn cho vấn đề cụ thể này.


Sử dụng GhostScript . Lệnh này hoạt động với tôi:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Có nhiều thiết bị giả png, phân biệt độ sâu màu: pngmono, pnggray, png16, png256, png16m và pngalpha. Chọn bất cứ ai phù hợp với bạn nhất.

Bạn cũng có thể sử dụng jpeg, nhưng trừ khi bạn gặp vấn đề về dung lượng ổ đĩa, bạn muốn chất lượng cao như bạn có thể quản lý cho OCR của mình và đó không phải là jpeg.

GhostScript không còn hỗ trợ gif nữa, nhưng tôi không thể tưởng tượng được tại sao bạn lại cần điều đó, với hỗ trợ png256.


Tôi yêu GhostScript và nếu bạn muốn sự tiện lợi của GUI để cài đặt tùy chọn, xem, v.v. hãy thử các trang GSview.cs.wisc.edu/~ghost/gsview
Dennis

Đầu ra sẽ là một hình ảnh lớn?
Xonatron 21/07/2015

1
@Xonatron: Không. Một hình ảnh trên mỗi trang. Các %dtrong tên tập tin đầu ra là một biến mà được thay thế bằng số trang. (Hầu như chắc chắn là số thô, không phải số bên trong PDF.)
wfaulk

20

Cài đặt Imagemagick . Mở một cửa sổ cmd hoặc thiết bị đầu cuối:

convert myfile.pdf myfile.jpg

Đầu ra sẽ là 1 tệp jpg cho mỗi trang trong pdf, test-0.jpg, test-1.jpg, v.v.


+1 cho ImageMagick, nhưng -2 vì đã gợi ý nó cho công việc sai. JPEG là tốt cho ảnh, nhưng nó là định dạng tồi tệ nhất để sử dụng khi bạn có các ví dụ sắc nét và độ tương phản cao (như bạn thường có với văn bản / ký tự màu đen trên nền trắng). Ngoài ra, ImageMagick không tự thực hiện công việc chuyển đổi, nó sử dụng Ghostscript trong nền làm nô lệ "đại biểu" của nó. Vì vậy, làm điều đó với Ghostscript trực tiếp cho phép bạn kiểm soát nhiều hơn các tham số được sử dụng. Và sau đó chọn TIFF (không phải JPEG) làm định dạng đầu ra, vì lợi ích của chris!
Kurt Pfeifle

1
Lưu ý trên windows, đảm bảo bạn cài đặt Ghostscript 32-bit trước.
Người dùng

2
Hãy nhận biết của density, depthqualitylá cờ có thể giúp bạn tối ưu hóa đầu ra của bạn. Ví dụ: convert -density 300 -depth 8 -quality 85 a.pdf a.png Thông tin thêm
Nick

13

Cũng có pdfimagestừ các công cụ Xpdf (có sẵn từ trang web của XpdfReader ). Nó sẽ không chuyển đổi toàn bộ trang PDF thành hình ảnh, thay vào đó nó sẽ trích xuất hình ảnh nhúng từ tệp PDF.

Điều này hữu ích nếu PDF chứa văn bản và hình ảnh và bạn chỉ muốn hình ảnh. Ngoài ra, nó sẽ trích xuất các hình ảnh ở định dạng ban đầu của chúng, do đó không làm giảm chất lượng (không giống như các chương trình kết xuất toàn bộ trang và sau đó chuyển đổi nó thành ví dụ JPEG). Tùy thuộc vào nhu cầu của bạn, điều này có thể hữu ích.


Cách sử dụng đơn giản:

pdfimages -j -list mydocument.pdf mydocument-images

Điều này sẽ đọc tệp đầu vào mydocument.pdf, trích xuất tất cả các hình ảnh và ghi chúng vào các tệp riêng lẻ có tên mydocument-images-0000.jpg, mydocument-images-0001.jpgv.v.

Tùy chọn -jlàm cho nó ghi các hình ảnh nén JPEG được nhúng dưới dạng tệp JPEG, không phải là tệp PBM / PGM / PPM (không nén và rất lớn). Lưu ý rằng hình ảnh vẫn có thể được ghi dưới dạng tệp PBM / PGM / PPM, nếu đó là cách chúng được lưu trữ trong tệp đầu vào PDF.


Để tham khảo, sử dụng đơn giảnpdfimages -j "yourinputfile.pdf" "outputimages"sẽ làm cho "outputimages-0000.ppm" (hoặc "outputimages-0000.jpg" nếu họ đang định dạng phù hợp). Các ví dụ .NET có thể được ghép từ đây hoặc tại đây
drzaus

Một lưu ý là nó có thể không thể lưu tệp dưới dạng JPG, mà là PPM
drzaus

11

Bạn có thể làm điều này bằng cách sử dụng trình đọc adobe:

  1. Nhấp vào hình ảnh. Nó sẽ được làm nổi bật.
  2. Sao chép (Ctrl-C) và dán nó vào Paint.
  3. Lưu dưới dạng bất kỳ loại tệp nào bạn thích.

2
Thật thú vị khi biết, Adobe Reader có cài đặt ghi đè dpi hình ảnh được chụp bằng công cụ chụp nhanh, khi được đặt thành 300dpi, bạn sẽ nhận được các ảnh chụp nhanh sẵn sàng để in (theo mặc định độ phân giải màn hình được chụp, thường là quá thấp để sử dụng lại trong công việc khác)
Stijn Sanders

3
+1 cho đơn giản. Hầu hết các trình đọc PDF cho phép bạn làm điều này.
Decio Lira

4
Nếu PDF của bạn có 10000 trang hình ảnh thì sao? Bạn có phải làm điều này 10000 lần không?
Guy

9

Ngoại trừ câu trả lời đề cập đến pdfimages, tất cả các câu trả lời khác đều không đề cập đến việc các giải pháp của họ thực sự chuyển mã các hình ảnh nhúng. Tức là, những giải pháp đó không chỉ đơn giản là trích xuất hình ảnh gốc, mà sửa đổi nó, có thể là gây hại cho hình ảnh, trong quá trình này. Chỉ pdfimages trích xuất hình ảnh gốc. Điều này đúng với Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview và hầu hết các phần mềm PDF khác.


Với bối cảnh của câu hỏi, đây thực sự là một điểm rất tốt.
wfaulk

FWIW, "Công cụ PDFill PDF" cho phép bạn đặt DPI cho hình ảnh lưu, rất tiện dụng. Do đó, mỗi trang (bắt đầu từ văn bản, hình ảnh, bất kỳ đối tượng nào) được lưu, ví dụ, sang PNG có độ phân giải cao ở 4961x6520.
Chris O

4

Công cụ PDFill PDF có lẽ là cách dễ dàng để chuyển đổi tệp PDF của bạn thành hình ảnh trên Windows. Nó sẽ cho phép bạn xuất tất cả các trang trong PDF để tách hình ảnh trong một lần chụp. Nó cũng có rất nhiều tính năng khác có sẵn miễn phí, chỉ có ở những người xem PDF khác nếu bạn mua phiên bản thương mại hoặc "Pro".

Sử dụng nút "Chuyển đổi PDF thành hình ảnh" (nút số 10) trong ảnh chụp màn hình bên dưới.

Ảnh chụp màn hình công cụ PDFill

Nếu bạn cần ghép các hình ảnh thành một hình ảnh rất cao để bạn chỉ phải cung cấp một tệp cho chương trình OCR của mình, bạn có thể sử dụng IrfanView


lưu ý rằng điều này sẽ cài đặt hai công cụ khác nhau trên hệ thống của bạn. Cái chính là PDFill Editor, cái bạn không cần. Đi vào menu bắt đầu để mở cái này. Tôi đã được lưu bởi ảnh chụp màn hình nhận ra rằng có điều gì đó không ổn trước khi tôi gỡ cài đặt.
ufotds

Có, tôi đoán tôi đã thất bại khi đề cập rằng nó cũng cài đặt phiên bản phần mềm chia sẻ của PDFill Editor, cũng như máy in PDF. Bất kỳ tệp nào được tạo bằng PDFill Editor sẽ có hình mờ trừ khi bạn mua trình chỉnh sửa với giá 19,99 đô la, nhưng tiện ích PDFill PDF Tools Free không yêu cầu bất kỳ giao dịch mua nào. Trong phiên bản tôi có, bạn không thể gỡ cài đặt PDFill Editor mà không gỡ cài đặt PDFill PDF Tools Free, nhưng cài đặt PDFill Editor không gây hại gì.
cướp

2

Vì bạn không bao gồm thẻ OS, tôi sẽ bao gồm câu trả lời OSX:

Các tệp PDF theo mặc định mở trong Preview.app cho phép bạn sử dụng File -> Save-As:

  • QUÀ TẶNG
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • TIFF

1

Ngoài ra PDF Xchange Viewer (Miễn phí) sẽ xuất ra tệp. Tập tin → Xuất → Xuất thành hình ảnh.

Không chỉ vậy, nhưng tôi nghĩ đó là trình xem PDF miễn phí tốt nhất cho Windows nó có một số khả năng đánh dấu đẹp. Tôi có giấy phép cho Adobe Acrobat và tôi vẫn thích điều này trừ khi tôi thực hiện chỉnh sửa mở rộng, điều này hiếm khi.


Điều này có vẻ đầy hứa hẹn, cho đến khi tôi phát hiện ra rằng tùy chọn xuất thành hình ảnh bị vô hiệu hóa các tệp PDF được bảo mật bằng mật khẩu.
Mitch

1

(Không miễn phí) Acrobat chuyên nghiệp thực hiện việc này:

Nâng cao-> Xử lý tài liệu-> Xuất tất cả hình ảnh ...


0

Nếu tệp dưới 5 MB và bạn không lo lắng về quyền riêng tư / bảo mật, thì đó là một dịch vụ trực tuyến tiện dụng tại http://www.go2convert.com/ có thể thực hiện nhiều chuyển đổi đồ họa (bao gồm pdf sang jpeg)


Chỉ cần thử và nó đã đưa ra thông báo lỗi này "Xin lỗi! Hình ảnh này không thể được chuyển đổi chính xác."
Guy

-1

Nếu hình ảnh vượt quá kích thước màn hình của bạn, bạn có thể sử dụng FastStone Capture (tính năng "Capture Scrolling Window") và lưu hình ảnh dưới dạng JPEG.

văn bản thay thế


Đó là một cách rất hay để lấy một hình ảnh. OP đã có một giải pháp tốt hơn (đánh dấu trang trong Acrobat).
sleske

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.