Quét nhiều trang thẳng vào PDF


36

Có một số chương trình dễ sử dụng trong Ubuntu có thể quét nhiều trang thẳng vào tệp PDF không?


Chỉ cần tự hỏi, có bất kỳ trình độ đặc biệt cần thiết cho máy quét / máy in mà tôi muốn sử dụng trong Ubuntu không?
JFW

@JFW, đây là danh sách các thiết bị được hỗ trợ cho XSane, phần cuối được sử dụng bởi hầu hết các máy quét Ubuntu. Máy in / máy quét / máy photocopy HP có vẻ như là một lựa chọn đáng tin cậy, nếu bạn đang tìm kiếm.
poolie

Câu trả lời:


38

Ý tưởng có một tiện ích quét đơn giản là đằng sau sự phát triển của Simple Scan - công cụ quét được cài đặt mặc định từ 10.04 trở đi (Ứng dụng ‣ Đồ họa ‣ Quét đơn giản). văn bản thay thế

Chỉ cần quét bao nhiêu trang bạn muốn và chọn PDF dưới dạng tệp khi lưu.

Một chương trình ít đơn giản hơn cung cấp các tính năng bổ sung như nhận dạng văn bản là gscan2pdf , cũng nằm trong kho. văn bản thay thế


3
+1 cho Quét đơn giản - thật dễ dàng và đơn giản, nhưng cũng rất mạnh mẽ - nó đặc biệt phù hợp với công việc bạn đã đề cập.
8128

6

"Dễ sử dụng" nằm trong mắt người dùng, nhưng xsanecung cấp chức năng này. Chọn bội số trong đó cho biết trình xem (hoặc nhấn CTRL-M) và không quá khó để tìm ra từ đó.


1
Cá nhân tôi thấy xsane rất dễ sử dụng ...
8128

Tôi đã sử dụng xsane tất cả thời gian này. Nó chưa bao giờ xảy ra với tôi rằng có thể có một công cụ tốt hơn.
Amanda

3

Tôi đã sử dụng xsanecho đến khi tôi thấy câu hỏi này và coi giao diện của nó là bình dị để nói ít nhất, nhưng hiệu quả.

Khi thấy câu hỏi này, tôi đã đi tìm và thấy gscan2pdf sống trong kho lưu trữ Ubuntu Lucid / Maverick. Nó sử dụng cùng một công cụ quét (libsane) nhưng UI thì Gnome-ish hơn nhiều. Để có thời gian tốt, hãy thử:

sudo apt-get install gscan2pdf

3

Thay đổi tên tệp từ myfile.jpg thành myfile.pdf trên hộp thoại lưu của Quét đơn giản.

Đã thử nghiệm trên Ubuntu 14.04, Quét đơn giản 3.12.1.

Điều này hoạt động ngay cả khi thả xuống loại tệp không hiển thị "PDF", chỉ "Hình ảnh". Tôi coi đây là một lỗi UI.

Tính năng này được ghi lại trên Help > Contents :

Từ hộp thoại "Lưu dưới dạng", chọn một trong các loại tệp được hỗ trợ hoặc chỉ cần thay đổi tiện ích mở rộng trong trường "Tên".

Nó nói rằng các định dạng sau được hỗ trợ:

  • PDF
  • JPEG
  • PNG
  • TIFF

Thực tế thú vị: nếu bạn thay đổi loại quét (thả xuống bên cạnh "Quét") thành "Văn bản", loại tệp mặc định sẽ trở thành PDF.


1

Quét các trang từ máy quét USB. Sử dụng tesseract để OCR thành PDF. Hợp nhất nhiều trang thành một PDF. Cách sử dụng: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}

nó là một phương pháp rất Linuxoidal
rth

1

Đối với những người bạn muốn sử dụng XSane. Nó rất mạnh mẽ và trực quan khi bạn đọc hướng dẫn thiết lập được liên kết từ Trợ giúp> XSane Doc trong chương trình - để biết bạn có thể làm được bao nhiêu với nó. Cũng đáng kiểm tra phần phụ trợ SANE của bạn có hoạt động tốt không (không quá cụ thể Arch): https://wiki.archlinux.org/index.php/Sane

Nếu bạn muốn tự động quét tài liệu từ bộ nạp và tự hỏi liệu XSane sẽ biết khi nào nên dừng (và không dừng quá sớm), chỉ cần nhập một số ở trên cùng bên trái (biểu tượng số lần quét) lớn hơn số trang phù hợp trong trung chuyển của bạn. Tức là nếu bộ nạp của bạn có thể mất 10 trang, sau đó nhập 15 (để tính đến sự thay đổi độ dày). Nếu bạn có máy quét song công, hãy nhân đôi số này.

Khi hết bộ nạp, bạn sẽ nhận được một hộp thoại có hình tam giác cảnh báo màu xanh lá cây có nội dung "" Các trang được quét: 0 ". Điều này chỉ có nghĩa là bộ nạp trống và bạn có thể đóng hộp thoại. Nếu bạn chọn" trình xem "hoặc" lưu "ở trên cùng bên phải của XSane, sau đó tất cả các tệp sẽ ở đó - hãy nhớ lưu chúng khỏi trình xem. Bây giờ bạn có thể nhấn quét một lần nữa để tiếp tục nơi bạn rời đi, với các số tăng dần từ cùng một điểm hoặc bạn có thể bắt đầu một dự án mới. Sẽ không có bất kỳ trang trống nào được thêm vào. Nếu bạn chọn "Nhân", hộp thoại dự án sẽ hiển thị tất cả các bản quét đã hoàn thành và bạn có thể nhấp để lưu dưới dạng nhiều tệp PDF hoặc TIFF hoặc PostScript.

HTH

DC

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.