Công cụ dòng lệnh để tìm kiếm tệp docx trong ms dos hoặc cygwin


2

Có một công cụ dòng lệnh có thể tìm kiếm .docx tập tin theo MS DOS hoặc Cygwin?

Tôi đã thử Grep, nó không hoạt động với .docx trong khi làm việc tốt với .txt tập tin.

Tôi biết tôi luôn có thể chuyển đổi .docx đến .txt Đầu tiên sau đó tìm kiếm bằng Grep, nhưng tôi tự hỏi:

Có một công cụ lệnh mà tôi có thể tìm kiếm trực tiếp dưới dòng lệnh?

Chỉnh sửa OP: Sau đó tôi phát hiện ra rằng cách dễ nhất để đạt được grep thực sự là chuyển đổi các docx thành txt sau đó grep qua chúng.

Câu trả lời:


3

Có nhiều thư viện cho phép đọc hoặc thao tác các tệp DOCX. Nghĩ đến việc Apache POI , hoặc là trăn-docx , ví dụ. Tôi không biết nếu đã có trình bao bọc cho phép bạn grep DOCX, nhưng điều đó chắc chắn sẽ không quá khó để sử dụng POI (Tôi không có kinh nghiệm với python-docx. .).

CHỈNH SỬA:

Ngoài ra, đơn giản hơn, bạn có thể giải nén DOCX (vì thực sự nó chỉ là tệp ZIP) và grep qua nội dung, như được đề xuất đây .


cảm ơn cho các liên kết nhưng họ là tiện ích dòng lệnh?
Gob00st

Lời khuyên chung: hãy thử giữ một phiên bản văn bản của nguồn tài liệu của bạn. Có thể là LaTeX, XML, văn bản thô hoặc các định dạng dễ phân tích cú pháp khác. Giúp rất nhiều cho việc kiểm soát phiên bản và tìm kiếm thông qua nhiều tập tin.
Joanis

@ Gob00st: Vâng, đối với đề xuất cuối cùng, nếu bạn có giải nén dòng lệnh, bạn sẽ ổn. Tôi vừa kiểm tra với trình cài đặt cygwin của tôi và bạn có thể cài đặt unzip bất cứ lúc nào để hoàn thành công cụ giải nén + grep.
Joanis

cảm ơn vì lời khuyên, nhưng đây không phải là dự án của tôi, chỉ cần cố gắng tìm kiếm một số văn bản trong một số tài liệu MS nhanh hơn mà không cần phải mở từng cái một.
Gob00st

@M: Tôi không biết đó là tệp zip ... Nhưng tôi vừa giải nén một tệp docx và bây giờ nó giống tệp xml hơn. Vấn đề là tôi muốn có thể tìm kiếm trên nhiều tệp docx, đó là lý do tại sao tôi đã cố gắng sử dụng grep hoạt động tuyệt vời khi tôi tìm kiếm nhiều tệp xml / txt ...
Gob00st

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.