Câu trả lời:
Giải pháp đang sử dụng odt2txt
. Bây giờ, lệnh này được cung cấp bởi hai gói khác nhau, cụ thể là một gói được gọi là odt2txt
bạn có thể cài đặt với
sudo apt-get install odt2txt
và theo gói unoconv
(cung cấp cả chuyển đổi dòng lệnh giữa các định dạng libreoffice khác), được cài đặt bởi
sudo apt-get install unoconv
Nếu bạn có cả hai, bạn có thể chuyển đổi giữa chúng bằng cơ chế thay thế :
sudo update-alternatives --config odt2txt
Nếu bạn đang sử dụng odt2txt
gói được cung cấp bởi gói odt2txt
bạn chỉ cần sử dụng
odt2txt file.odt
nếu sử dụng unoconv
gói được cung cấp, bạn phải sử dụng
odt2txt --stdout file.odt
Đặt chúng để less
có trải nghiệm ít giống ( odt2txt file.odt | less
)
Lưu ý rằng nếu bạn không sử dụng --stdout
tùy chọn, gói unoconv cung cấp sẽ ghi kết quả vào một tệp được gọi file.txt
.
Gói được đề xuất bởi phân phối dường như là odt2txt
gói từ gói (nó có mức ưu tiên mặc định cao hơn trong hệ thống thay thế); chắc chắn nó có ít phụ thuộc hơn.
unoconv
, như tôi đã phát hiện ra, là nó muốn cài đặt phiên bản cũ hơn của Libre Office nếu bạn đã cài đặt phiên bản mới hơn. Do đó, gắn bó với sudo apt install odt2txt
.
update-alternatives
, cảm ơn bạn.
Bạn có thể duyệt qua văn bản mà không cần bất kỳ tiện ích đặc biệt. Tệp ODT là một kho lưu trữ zip được đổi tên. Giải nén nó và bạn sẽ thấy một số tập tin. Một trong số họ, content.xml
có chứa tất cả các văn bản và là more
hoặc less
có thể đọc được.
odt2txt file.odt
mã nguồn và zip làm việc compilebale có thể được tải xuống ở đây:
https://github.com/dstosberg/odt2txt/
hoặc được cài đặt bởi
sudo apt-get install odt2txt
Bạn không thể cat
hoặc less
hoặc more
một tệp .odt vì đó là tệp nhị phân. Nó thực sự - như đã nói trước đó - một kho lưu trữ .zip đã được đổi tên, vì vậy bạn phải trích xuất content.xml
tệp, nhưng, như nó ngụ ý, là một tài liệu XML, vì vậy bạn phải xử lý nó để trích xuất thông tin ra khỏi nó.
odt2txt
gói và nó hoạt động như bình thường.