Có cách nào tốt hơn để làm lại PDF?


24

Tôi đã phải in một vài tệp PDF gần đây để gửi cho ai đó, nhưng tôi muốn làm lại (bôi đen) một vài mẩu văn bản nhỏ.

Một tìm kiếm nhanh trên google đã không tìm thấy bất kỳ công cụ nào cho mục đích cụ thể này, vì vậy tôi đã quay lại với hình ảnh & gimp:

  • convert document.pdf document.png
  • gimp document-0.png
  • (sử dụng cọ vẽ để bôi đen văn bản)
  • in trang được xử lý lại từ gimp
  • in các trang còn lại từ xpdf

Vấn đề với chiến lược này là quá trình chuyển đổi (từ PDF sang PNG hoặc bất kỳ định dạng nào khác) làm mất chất lượng. Tôi đã thử chỉnh sửa PDF trong gimp nhưng nó không hoạt động ngay lập tức.

Có một công cụ cụ thể nào cho phép điều chỉnh theo cách này không? .

Hoặc, có một mẹo để có thể chỉnh sửa PDF trong gimp?


1
PDF có khả năng mở rộng, PNG là đồ họa raster, có lẽ đó là lý do tại sao có sự giảm chất lượng trong quá trình chuyển đổi. Thay đổi thành một định dạng có thể mở rộng, chẳng hạn như SVG.
Ẩn danh

@ Đồng nghĩa: Ý tưởng hay, nhưng không sử dụng được. Tệp SVG kết quả là rất lớn; Tôi đã phải -KILL người xem sau 30 phút và tiêu thụ bộ nhớ GiB hoặc hơn.
bstpierre

Câu trả lời:


15

(ban đầu tôi đã giới thiệu Okular nhưng nó không hoạt động như tôi mong đợi)

1. Chỉnh sửa tài liệu trong trình chỉnh sửa vector

Tôi đã có thể mở tệp PDF trong Inkscape , vẽ một hình chữ nhật trên một đoạn văn bản và in nó ra. Inkscape là một trình soạn thảo vector nên không liên quan đến rasterization. Một số phông chữ có vẻ sai - có lẽ vì tài liệu được tạo trên máy Windows có phông chữ không có trong tôi.

Lưu ý rằng bất kỳ phương pháp nào không liên quan đến rasterization chỉ được chấp nhận nếu bạn định in tài liệu được xử lý lại trên giấy và không phân phối bằng điện tử, vì văn bản vẫn có thể được truy xuất từ ​​dưới màn hình.

2. Tăng độ phân giải rasterization khi mở trong trình chỉnh sửa bitmap

Về "mất chất lượng" khi mở trang trong Gimp : bạn có thể trực tiếp mở tệp PDF trong Gimp. Nó sẽ được rasterized trong quá trình. Lượng giảm chất lượng trong quy trình là vấn đề độ phân giải bạn chọn khi nhập - 300 dpi sẽ cung cấp cho bạn chất lượng rất tốt (mặc định là 100).

Bạn cũng có thể nhận được kết quả tốt với convertlệnh của ImageMagick nếu bạn bảo nó tăng độ phân giải:

convert -density 300x300 ...

1
+1 và được chấp nhận! Cảm ơn bạn đã đề xuất inkscape, nó đã làm một công việc hợp lý (không hoàn hảo - nó đã mất một vài đối tượng đồ họa (không quan trọng với tôi)) - nhưng rất hợp lý). Và mẹo trên convertcũng rất hay: câu thần chú tôi đã sử dụng convert -density 300x300và không giảm chất lượng.
bstpierre

+1 để đề cập đến GIMP có thể xử lý pdf khá tốt
don.joey

8
Cảnh báo cho dân chúng nói chung: các phương pháp rút gọn ở đây liên quan đến việc giữ lại văn bản được đề xuất ở đây (ví dụ: tất cả các phương pháp tránh rasterisation) không an toàn. Văn bản vẫn có thể được chọn từ dưới màn hình hoặc đọc từ nguồn của tệp. Xem ví dụ freerepublic.com/focus/f-news/2706743/postshackaday.com/2008/08/01/exposing-poorly-redacted-pdfs
naught101

Mặc dù câu hỏi ban đầu chỉ hỏi về việc gửi bản cứng, nhưng phương pháp không phổ biến nào được chấp nhận, việc bỏ qua vì câu trả lời này không đủ cảnh báo về rủi ro bảo mật khi phân phối kết quả điện tử.
Jesse Glick

4
@JesseGlick: thay vì "trừng phạt" tôi vì đã không giải quyết một trường hợp sử dụng thậm chí không được đề cập trong câu hỏi ban đầu, bạn có thể vừa chỉnh sửa câu trả lời. Điều đó sẽ có lợi hơn cho các du khách trong tương lai.
Serge

10

Về cơ bản những gì bạn đang cố gắng làm nổi bật / chú thích một tệp PDF, nhưng với sự linh hoạt về độ mờ và màu của điểm đánh dấu (bạn đã đề cập rằng bạn không cần phải kiểm duyệt / xóa cái gì đó, chỉ đơn giản là làm lại). Bạn đã xem qua các câu trả lời ở đây: Làm thế nào tôi có thể làm nổi bật hoặc chú thích các tệp PDF?

Một trong những câu trả lời được đánh giá cao nhất khuyến nghị Xournal , chưa được đề cập ở đây và sẽ là vũ khí lựa chọn của tôi. Nó là một công cụ cho phép bạn tạo ghi chú viết tay nhưng có các tính năng bổ sung cho phép bạn chú thích một tệp PDF. Theo mặc định, nó sẽ lưu các chú thích của bạn dưới dạng một tệp riêng biệt nhưng cũng cho phép bạn xuất PDF chú thích dưới dạng PDF mới. Điều này sẽ duy trì bố cục, phông chữ, vv

Với Xournal, bạn chọn "Chú thích PDF", sau đó sử dụng bút đánh dấu màu đen để che đi những phần bạn muốn làm lại và "Xuất ra PDF".

Có một số câu chuyện trên internet cho thấy Xournal phát tán văn bản trong tệp PDF đã xuất (cảm ơn vì đã chỉ ra điều này, MHC). Điều này dường như không đúng: với các chú thích đơn giản, văn bản vẫn có thể chọn và tìm kiếm được và kích thước tệp không tăng nhiều (ví dụ tăng từ 205 kb lên 220 kb trong ví dụ bên dưới).

Để cài đặt, hãy chạy trong một thiết bị đầu cuối: sudo apt-get install xournalhoặc chỉ chọn nó từ Trung tâm phần mềm

Giao diện Xournal Kết quả xuất PDF


Xournal là tốt nhưng bạn phải biết rằng nó chỉ có thể xuất các tệp PDF raster có nghĩa là tất cả thông tin văn bản và vectơ bị mất trong quá trình. Nếu bạn có thể đối phó với điều đó thì Xournal là ứng dụng bạn chọn.
Glutimate

1
Cảm ơn phản hồi, @MHC. Xournal không rasterise, xem câu trả lời sửa đổi để biết thêm thông tin.
Tomas

3
Tôi chỉ thử nó cho bản thân mình và bạn hoàn toàn đúng. Xin lỗi vì sự nhầm lẫn. Đã được một thời gian kể từ khi tôi sử dụng Xournal và bằng cách nào đó tôi đã để lại ấn tượng rằng các tài liệu xuất khẩu không phải là các tệp PDF thực sự. Cảm ơn đã thiết lập thẳng!
Glutimate

1
Điều này hoạt động tốt, nhưng tôi không thể tìm thấy một cách sạch sẽ để tìm lại thông tin. Tôi đã phải sử dụng công cụ vẽ để viết nguệch ngoạc trông rất lộn xộn và thiếu tính chuyên nghiệp mà tôi muốn. Mặt khác, tại chỗ với việc xuất khẩu rasterizing nội dung để nó không thể được chọn và khám phá.
flickerfly

Để chỉnh sửa thực sự, thay thế dữ liệu văn bản bằng hình ảnh, hãy kết hợp câu trả lời này với @ balu sử dụng convertlệnh của ImageMajick .
colan

6

Bạn có thể sử dụng Okular.

sudo apt-get install okular
  1. Mở pdf bằng Okular.
  2. Nhấn F6.
  3. Nhấn 8.
  4. Đánh dấu văn bản bạn muốn làm lại.
  5. Nhấp chuột phải vào văn bản, chọn thuộc tính, chọn "Loại" là "Đánh dấu", nhấn Ok.
  6. In tập tin ra pdf.

4
Có lẽ đề cập đến làm thế nào để làm nổi bật màu đen.
tương đương

1
Okular có thể định nghĩa lại với bất kỳ màu nào (màu đen) của các chức năng này: tô sáng văn bản, đường kẻ tự do và liên kết đa giác với điền vào bên trong. Bạn có thể lưu cài đặt làm công cụ chú thích tùy chỉnh của riêng bạn. Dễ dàng sử dụng nó nhiều lần. Sau đó, khi bạn in tệp sang pdf, bạn nên "buộc rasterization" để đảm bảo khả năng điều chỉnh không thể đảo ngược. Phiên bản Okular 1.1.3
Shadowbq

Theo mặc định, nó có màu đen, hoạt động với phiên bản Okular mới nhất. Cảm ơn bạn!
TheFrack

5

Tôi sắp xếp lại rất nhiều tệp PDF mỗi ngày, vì vậy tôi dành nhiều thời gian để suy nghĩ làm thế nào để làm điều đó một cách tốt nhất.

Đối với tôi cách tốt nhất là chia PDF thành tệp PDF 1 trang, bên cạnh chỉnh sửa bằng GIMP, bên cạnh để kết hợp nó. Tôi không sử dụng hình ảnh trên tất cả các tệp (tôi hoàn toàn không sử dụng), vì vậy tôi không mất lớp văn bản trên tất cả các trang, mà chỉ được xử lý lại. Không tải toàn bộ tệp PDF cùng một lúc, vì nó gây cạn kiệt bộ nhớ.

Tách PDF thành tập tin 1 trang

Dễ dàng phân chia các tệp PDF thành PDF 1 trang mà bạn có thể bằng hàm bash này (đặt nó vào ~ / .bashrc):

function pdf_split(){
    for file in "$@"; do
        if [ "${file##*.}" != "pdf" ]; then
            echo "Skip $file because it's not PDF file";
            continue
        fi; 
        pages=$(pdfinfo "$file" | grep "Pages" | awk '{print $2}') 
        echo "Detect $pages in $file";
        filename="${file%.*}";
        unset Outfile;
        for i in $(seq 1 "$pages"); do
            pdftk "$file" cat "$i" output "$filename-$i.pdf";
            Outfile[$i]="$filename-$i.pdf";
        done;
    done;
};

Bây giờ bạn có thể nhập split_pdf file.pdfđể có được nhiều tệp PDF.

Làm lại tập tin

Nhưng, bây giờ bạn cần chỉnh sửa tất cả các tập tin này. Bạn có thể làm điều đó với gimp original-filename-*.pdf. Tôi đề nghị cấu hình phím tắt trong GIMP (Cửa sổ chính-> Chỉnh sửa-> Phím tắt) để thay thế tệp (Tôi sử dụng CTRL + R), bộ lọc mờ (ví dụ: CTRL + D), đóng tệp (ví dụ: CTRL + W) và thoát GIMP ( ví dụ.CTRL + Q). Hãy nhớ không tải GIMP vào nhiều tệp cùng một lúc, nhưng GIMP khi bạn tải sau khi mở, để bạn có thể sử dụng gimp original-filename-*.pdfan toàn trên hàng ngàn tệp.

Kết hợp các tập tin

Bạn có thể kết hợp các tệp dễ dàng với: pdftk originam-filename-*.pdf cat output "new-file-anon.pdf";

Kết nối tất cả lại với nhau

Các thao tác này rất lặp đi lặp lại và nhàm chán, vì vậy tôi kết nối tất cả trong 1 tập lệnh:

function pdf_redact(){
    for file in "$@"; do
        if [ "${file##*.}" != "pdf" ]; then
            echo "Skip $file because it's not PDF file";
            continue
        fi; 
        pages=$(pdfinfo "$file" | grep "Pages" | awk '{print $2}') 
        echo "Detect $pages in $file";
        filename="${file%.*}";
        unset Outfile;
        for i in $(seq 1 "$pages"); do
            pdftk "$file" cat "$i" output "$filename-$i.pdf";
            Outfile[$i]="$filename-$i.pdf";
        done;
        gimp "${Outfile[@]}";
        pdftk "${Outfile[@]}" cat output "$filename-anon.pdf";
        rm "${Outfile[@]}";

    read -p "Do you want open output file? " -n 1 -r
    echo    
    if [[ $REPLY =~ ^[Yy]$ ]]
    then
            evince "$filename-anon.pdf";
    fi

    read -p "Do you want upload output file to Scribd.com? " -n 1 -r
    echo 
    if [[ $REPLY =~ ^[Yy]$ ]]
    then
        scribd_up "$filename-anon.pdf";
    fi
    done;
};

Phiên bản mới nhất của tập lệnh này luôn có thể truy cập tại: http://dostep.jawne.info.pl/it/bashrc

Nhớ đóng GIMP (CTRL + Q) sau khi tất cả các lần rút lại để tiếp tục tập lệnh.

Khi nghiện, tôi mở các tệp được sắp xếp lại (tôi thích đọc để kiểm tra xem tất cả) và khi tải lên Scribd với tập lệnh khác của tôi - scribd_up , vì vậy bây giờ tôi có thể xử lý rất nhiều tệp PDF rất hiệu quả.


2

Mở tệp PDF bằng công cụ miễn phí PDF-Xchange PDF Viewer . Bôi đen văn bản được xử lý lại bằng hình chữ nhật màu đen. In. Điều đó sẽ giúp bạn dễ dàng, "giả mạo" chất lượng cao.


Đó dường như là một công cụ win32. Hãy cho tôi biết nếu tôi bỏ lỡ liên kết cho cổng linux ...
bstpierre

3
Trình xem PDF-Xchange di động miễn phí sẽ hoạt động với rượu vang.
Sabacon

Cảm ơn, điều này làm việc hoàn hảo cho tôi với rượu vang. Các giải pháp inkscape và gimp chỉ thực sự hữu ích cho các giao dịch trang đơn.
Gearoid Murphy

2

Sử dụng LibreScript Draw để chỉnh sửa nhanh mà bạn đang tìm kiếm. Sau khi hoàn tất, bạn có thể lưu nó dưới định dạng LibreOffice Draw hoặc xuất lại thành định dạng PDF ( File> Export as PDF)

nhập mô tả hình ảnh ở đây

Để có thể nhập tệp PDF vào LibreOffice Draw, trước tiên bạn phải cài đặt gói libreoffice-pdfimport.

Cài đặt nó thông qua Trung tâm phần mềm Ubuntu ( libreoffice-pdfimport Cài đặt libreoffice-pdfimport ) hoặc qua thiết bị đầu cuối với sudo apt-get install libreoffice-pdfimport.


2

Bạn cũng có thể thử công cụ này: https://launchpad.net/updf

Đây là (nhưng dù sao, văn bản có thể lựa chọn):

nhập mô tả hình ảnh ở đây


1
uPDF tuyệt vời ở chỗ nó bảo tồn bản gốc PDF và nội dung văn bản và svg của nó. Tuy nhiên, nó dường như có một số vấn đề với mức độ nén. Các tệp PDF đã chỉnh sửa có kích thước lớn hơn khoảng 3-4 lần so với bản gốc. Cảm ơn bạn đã đăng bài này, mặc dù. Tôi đã không biết về uPDF.
Glutimate

Có tôi biết nó có một số vấn đề, nó hơi thô. Hy vọng các bản phát hành mới hơn sẽ khắc phục những vấn đề này ... :)
franzlorenzon

Như đã đề cập, uPDF có rất nhiều lỗi (và thậm chí không hoàn tác / làm lại) nhưng mọi thứ vẫn diễn ra tốt đẹp trong trường hợp của tôi, vì vậy cảm ơn bạn!
balu

2

Tôi nhớ một lần tôi và một đồng nghiệp phải tìm cách chỉnh sửa một vài pdf, chúng tôi đã kết thúc bằng Gimp. Tôi sẽ bình luận cho bạn các chi tiết ... chúng tôi mở pdf trực tiếp bằng gimp (trong một thiết bị đầu cuối)

gimp the_file.pdf

Khi bạn chỉnh sửa xong, chúng tôi không lưu các thay đổi, thay vào đó chúng tôi in thành tệp pdf ... Điều đó dường như hoạt động tốt.


Vì bất kỳ lý do gì, gimp từ chối cho phép tôi thực hiện bất kỳ chỉnh sửa nào đối với tệp. Trước tiên tôi phải chuyển đổi bằng hình ảnh convert, sau đó chỉnh sửa tệp đã chuyển đổi. (Xem câu trả lời được chấp nhận.)
bstpierre

ok, giải pháp của inkscape là hợp lệ. Nhưng tôi nhắc lại với bạn Gimp có thể chỉnh sửa trực tiếp các tệp pdf. = D
maniat1k

Gimp dường như hoạt động với hầu hết các tệp PDF, nhưng tệp tôi đang sử dụng tối qua không hoạt động chính xác. Inkscape xử lý tập tin đó đúng cách.
bstpierre

2

PDF Studio là một phần mềm không mở và là phần mềm yêu cầu mua.

Về câu hỏi này, từ phiên bản 8 trở đi, nó có tính năng chỉnh sửa thủ công. Người dùng có thể chọn một đối tượng văn bản và làm lại nó. Nội dung được xóa khỏi PDF và thay thế bằng một hình chữ nhật màu đen.

Trong phiên bản 9 đến quý 3 năm 2013, chú thích phân vùng và ghi cũng sẽ có sẵn cho hình ảnh và hình dạng.


4
Theo faq , bạn nên tiết lộ liên kết của bạn với sản phẩm bạn đang quảng cáo.
bstpierre

Mặc dù đây có thể là một quảng cáo quảng cáo nhiều hơn là một câu trả lời tôi phải nói rằng PDFstudio thực sự là một phần mềm tuyệt vời. Nó có thể là một chút giá quá cao nhưng nó chắc chắn là bộ chỉnh sửa PDF tốt nhất cho Linux ngoài kia. Hãy chắc chắn để thử ít nhất phiên bản dùng thử của họ .
Glutimate

2

Vì rất nhiều giải pháp ở đây khuyên bạn nên sắp xếp lại / bôi đen thông qua các chú thích (để lại nội dung gốc trong pdf), tôi khuyên bạn nên raster pdf sau đó để thực sự xóa nội dung gốc. (Đừng là anh chàng này .)

Đây là một cách để làm điều đó, đồng thời, giữ chất lượng và kích thước tệp thấp (ít nhất là trong trường hợp của tôi là một loạt các trang đen / trắng):

$  convert -quality 100 -density 180 -compress zip notreallyredacted.pdf trulyredacted.pdf

Lưu ý: convertcần ImageMagick.

Lưu ý 2: convertkhông lưu giữ nội dung của các biểu mẫu bạn có thể đã điền. Để nó không bị mất, bạn có thể muốn in tài liệu "vào một tệp" trong một cái gì đó như evincetrước tiên (hoặc trong bất kỳ ứng dụng nào bạn điền vào biểu mẫu) và sau đó raster nó.


Chỉ cần thêm các quyền sửa chữa. Câu trả lời này nên được kết hợp với Xournal.
colan

1

Cách tốt nhất mà tôi đã tìm thấy để làm điều này là sử dụng http://www.pdfescape.com . Bạn có thể chú thích, thêm văn bản và hình ảnh, vẽ một hình chữ nhật "trắng" xung quanh những thứ bạn muốn làm lại, và bạn có thể nhanh chóng tải xuống và lưu nó. Nó cũng hoạt động thực sự tốt với các tài liệu nhiều trang, đó là điều mà rất nhiều giải pháp khác không hoạt động tốt. Ví dụ: nếu bạn mở một tài liệu nhiều trang trong Gimp hoặc Inkscape, bạn sẽ chỉ có thể mở một trang mỗi lần. Quá trình này nhanh hơn nhiều trong PDFescape. Toàn bộ quá trình để tôi làm lại một tài liệu 2 trang chỉ mất chưa đầy một phút.


1
Không thực sự xóa sạch dữ liệu bạn đã vẽ. (Tôi vẫn có thể tìm kiếm nó và nó sẽ "đánh dấu" bên dưới).
Frank Nocke

1

Nếu bạn không muốn nhớ câu thần chú chính xác, convertbạn có thể sử dụng các công cụ pdf-redact- script, tập lệnh shell tự động hóa quá trình phát nổ PDF thành hình ảnh PNG và hợp nhất chúng lại với nhau sau khi chỉnh sửa (sử dụng công cụ bạn chọn, ví dụ như gimp ). Đó là apt-getable có thể cài đặt .


0

Có nhiều trình soạn thảo để chỉnh sửa tài liệu PDF trực tiếp, chẳng hạn như pdfedit , hoặc chuyển đổi nó sang các định dạng vector khác có thể được hỗ trợ tốt hơn, chẳng hạn như pstoedit. Tuy nhiên, tôi không khuyến nghị sử dụng bất kỳ thứ gì trong số chúng vì nguy cơ làm điều gì đó ngu ngốc, như chỉ vẽ lên văn bản bằng màu đen trong khi để các vectơ vào vị trí là dễ dàng, do đó làm cho việc chỉnh sửa trở nên tầm thường.

Đi theo vectơ đến tuyến bitmap là cách an toàn nhất, tốt nhất là tuyến bitmap 1 bit, để tránh mọi vấn đề tiềm ẩn với các kênh alpha hoặc sự khác biệt màu sắc có thể khiến văn bản có thể đọc được.

Nếu có thể, bạn phải luôn luôn tìm lại tài liệu gốc và chỉ cần loại bỏ thông tin, chứ không phải tô màu trên PDF, vì ngay cả cách viết và khoảng cách của văn bản xung quanh văn bản được sắp xếp lại cũng có thể loại bỏ nó.


Tôi hiểu các vấn đề với việc sắp xếp lại đúng cách, nhưng cảm ơn bạn đã quan tâm chỉ ra chúng cho bất kỳ ai đi sau. Trong trường hợp của tôi, bản thân PDF là dùng một lần - tất cả những gì tôi đang tìm kiếm là bản cứng. (Bản PDF sẽ bị xóa ngay khi tôi có bản cứng.) FWIW, pdfeditkhông hoạt động: khi tôi vẽ một hình chữ nhật màu đen trên văn bản trong câu hỏi, nó đã gỡ bỏ phần còn lại của trang, để lại cho tôi một tài liệu bao gồm một hình chữ nhật màu đen duy nhất.
bstpierre

0

Tôi thêm vào danh sách: Krita . Không giảm chất lượng, vì khi nhập PDF, bạn có thể xác định dpi (đặt thành 300, như @Sergey đã nói). Sau khi chỉnh sửa, nhấn "Xuất dưới dạng PDF". Cuối cùng, tôi thấy Krita trực quan hơn Gimp, sau khi đã là người dùng Photoshop lâu năm.


-1

Nếu sử dụng LibreOffice để tạo tệp PDF, hãy mở tài liệu trong LibreOffice, tô sáng văn bản cần xử lý lại, nhấp chuột phải và chọn ký tự, chọn Nền và nhấp vào màu đen. Xuất sang PDF.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.