Grep trong Microsoft Word?


10

Grep trong Microsoft Word?

Tôi muốn kéo tất cả các dòng bằng một chuỗi nhất định từ một tài liệu từ. Trong thế giới unix ... grep làm điều này mà không có trục trặc. Windows là ít rõ ràng đối với tôi.

Câu trả lời:


10

Với Cygwin (hoặc truy cập vào máy Linux), bạn có thể

antiword file.doc | grep "my phrase"

hoặc là

catdoc file.doc | grep "my phrase"

Có rất nhiều trình chuyển đổi định dạng tệp dòng lệnh ra khỏi grep theo cách tương tự.

Giải pháp hoàn toàn trong Word có thể là Ctrl + F (Tìm) và sau đó Tìm tất cả - tuy nhiên, tôi không chắc liệu tất cả các phiên bản của MS Word có nút Tìm tất cả hay không .


2
Khi tôi nhìn thấy tiêu đề câu hỏi, tôi đã nghĩ "Ha! Điều đó thật tuyệt, phải không". Tôi không bao giờ nên đánh giá thấp các lập trình viên GNU.
Phoshi

Phiên bản mới nhất của catdocsegfaults trên mỗi .doc/ .docxtệp tôi cung cấp và antiwordchỉ cho tôi biết tài liệu của tôi "không phải là Tài liệu Word". Bạn có biết bất kỳ lựa chọn khác?
gièm pha

Không có gì tôi đã sử dụng ... Tìm kiếm nhanh cho thấy docx2txttồn tại trong kho Debian - có thể hoạt động. Tôi cũng sẽ xem xét tiện ích chuyển đổi định dạng dòng lệnh OpenOffice / LibreOffice (unoconv), có thể được sử dụng cho cùng một mục đích.
chronos

3

Tôi biết điều này nghe có vẻ nguyên thủy, nhưng điều gì ngăn bạn lưu tệp dưới dạng .txt và sau đó tách nó ra theo ý thích của bạn.


2
Có hàng trăm người trong số họ làm điều đó, là gì.
tchrist

1

"Dòng" có nghĩa là gì trong ngữ cảnh Word? Dòng hiển thị, thay đổi nếu bạn làm bất cứ điều gì để định dạng trang? Đoạn văn? Thứ gì khác?

Bạn có thể thực hiện một loạt các công cụ với các chức năng tìm và thay thế của Word, bao gồm thay đổi định dạng và những thứ không rõ ràng khác, nhưng tất cả chúng sẽ chỉ hoạt động trên chính văn bản tìm thấy, không phải trên bất kỳ văn bản xung quanh nào.


Mặc dù vậy, grep đã có regex lovin '!
Phoshi

1

Có hỗ trợ cho các tài liệu MS - Word, PowerPoint, Excel - trong CRGREP mà tôi đã phát triển như một công cụ mã nguồn mở miễn phí. Nó cũng chào đón những thứ khó tìm kiếm khác như bảng cơ sở dữ liệu, hình ảnh, âm thanh, tài liệu lưu trữ, PDF và các kết hợp này. Chúc vui vẻ.



0

Không có đủ đại diện để bình luận nhưng tôi có thể thấy vấn đề doc vs docx này được thảo luận để bất kỳ ai theo đuổi chủ đề (như tôi) có thể thấy điều này hữu ích.

Bạn không cần một công cụ đặc biệt cho các tệp docx. docx là các tệp XML được nén.

Để trích xuất và tách XML, hãy thử một cái gì đó dựa trên

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

từ dòng lệnh fu


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.