Làm cách nào để tôi cài đặt gói ngôn ngữ mới cho Tesseract vào ngày 16.04


19

Chỉ cần cài đặt gscan2pdf v1.3.9 cũng như Tesseract. Về phần sau, đầu tiên nó xuất hiện ở cuối danh sách Phần mềm đã cài đặt của tôi, nhưng bây giờ nó dường như không còn nữa, mặc dù vẫn hoạt động (tôi nghĩ).

Dù sao, tôi đang cố gắng biến pdf của một tài liệu được quét thành văn bản có thể chỉnh sửa, nhưng tài liệu này không phải bằng tiếng Anh, vì vậy gscan tạo ra một mớ hỗn độn.

Chỉ tùy chọn tôi nhận được khi tôi đi đến Tools > OCR > Language to recognizeEnglish, equ, và osd. Bất kỳ ý tưởng về cách tôi có thể cài đặt một gói ngôn ngữ cụ thể?

Tôi không có người dùng Linux có kinh nghiệm nên các hướng dẫn từng bước sẽ được đánh giá cao.

Câu trả lời:


33

Chỉ cần cài đặt ngôn ngữ ocr cần thiết bằng cách sử dụng này:

sudo apt-get install tesseract-ocr-[lang]

Trong trường hợp [lang] có thể

all

HOẶC LÀ

afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid

1
'eng' cũng nên có trong danh sách
Will
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.