Tôi đang xuất nội dung MS Word sang văn bản thuần để sử dụng với các tiện ích văn bản và tệp. Tôi có một ràng buộc trong đó tính năng đánh số dòng đã được bật trong phần mềm MS và mọi tham chiếu đến số dòng trong đầu ra cuối cùng phải khớp với cách đánh số đó. Vì vậy, nhập "dòng đánh số":
( Poe, EA )
Rõ ràng đối với Word , kiểu đánh số đó không ngắt dòng ở dòng mới , nó ngắt "dòng" sau lề phải (hoặc một cái gì đó). Một tập lệnh như docx2txt
, không có tài khoản này theo mặc định nó có vẻ như và phá vỡ các dòng ở dòng mới. Vì vậy, nếu tôi sử dụng grep -n
với đánh số, các dòng sẽ không khớp với tính năng số dòng nguồn, như minh họa ở trên. Không rõ chính xác từ tài liệu về cách tôi cần chỉnh sửa tập lệnh Perl để chuyển đổi các tệp theo cách tôi cần trong trường hợp này:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Tôi cố gắng thay thế \n
cho \r\n
nhưng điều đó dường như không làm việc cho tôi. Vì vậy, tôi đã sử dụng để xuất tài liệu trực tiếp từ Word với các cài đặt sau (lưu dưới dạng văn bản thuần túy , trên v.2013,64pc):
- Unicode (UTF-8)
- Chèn ngắt dòng + dòng kết thúc bằng (CR / LF)
- Cho phép thay thế nhân vật
Và bây giờ, thực sự khi tôi sử dụng các .txt
tập tin, có một sự kết hợp hoàn hảo giữa các số dòng trong tính năng đánh số nguồn và grep -n
đầu ra.
- Có bất kỳ cấu hình / quy trình cụ thể nào tôi nên biết
docx2txt
hoặc một tiện ích dòng lệnh tương tự có thể cho phép tôi chuyển đổi các tệp .docx của mình thành văn bản thuần trong khi duy trì ngắt dòng, mà không cần dùng đến Word như tôi đã làm không? - Các thực tiễn tốt nhất , nếu có, để xuất tài liệu MS Word (có thể chứa các ký tự có dấu) thành văn bản thuần để sử dụng với các tiện ích tệp / văn bản, liên quan đến ngắt dòng và định dạng; và có bất kỳ ý nghĩa tiêu cực nào với các cài đặt tôi đã chọn để xuất tức là chèn CR / LF không?
Mẫu vật
Theo đề nghị tôi cung cấp một mẫu. Trong kho lưu trữ rar này , tôi đã gói một tệp .docx với các đoạn đơn giản và tệp .txt đã xuất của nó bằng Word với các tùy chọn đã nói ở trên. Cái sau có thể được so sánh với một lần chạy mặc định docx2txt
trên tệp nguồn.