Công cụ giống như Grep cho tất cả các kiểu tệp?


1

Có một công cụ giống như grep / ack / grin cho tất cả các kiểu tệp (bao gồm MS Office, PDF, v.v.) không? Tôi thường thấy mình muốn tìm kiếm một thư mục hoặc toàn bộ đĩa cho các chuỗi bên trong các tệp không chỉ là bản rõ.

Tôi đặc biệt quan tâm đến các giải pháp OSX, mặc dù quan tâm đến đa nền tảng và ở mức độ thấp hơn là các giải pháp UNIX / Windows.

Cảm ơn.


1
Chỉ cần làm rõ, bạn muốn có một công cụ có thể mở một loại tệp, tức là pdf sau đó tìm kiếm văn bản bên trong loại tệp, tức là pdf và đưa kết quả của nó vào tập kết quả cuối cùng. Bạn không muốn tìm kiếm pdf dưới dạng dữ liệu thô? Đẹp!
Guy Coder

Có phải tất cả các loại tập tin cần thiết của bạn ở đây? support.google.com/webmasters/bin/ từ
Guy Coder

Đúng, họ chắc chắn là có. Bạn có gợi ý rằng Google có thể lập chỉ mục cho máy Mac của tôi không?
dùng72923

Câu trả lời:



1

Tôi không biết một tiện ích duy nhất sẽ xử lý mọi thứ, nhưng một số tùy chọn hữu ích là:

  1. chuỗi (từ gói binutils)
  2. lesspipe (từ gói ít hơn)
  3. phản từ
  4. odt2txt
  5. pdftotext (từ poppler-utils)

Bất cứ điều gì khác, và có lẽ bạn sẽ cần phải chạy / usr / bin / file và xem liệu bạn có thể tìm thấy một gói cho phép bạn chuyển đổi sang một số định dạng chính tắc mà bạn biết cách xử lý hay không.


Xem ý kiến ​​trên để làm rõ. Tìm kiếm chủ yếu cho các kiểu tệp phổ biến như MS Office và PDF.
dùng72923

0

Không, tập hợp tất cả các kiểu tệp và mã hóa văn bản quá lớn cho một chương trình duy nhất có thể phân tích tất cả chúng.

Xem xét ví dụ

  • Định dạng tệp mod Amiga Noisetracker (chứa tên nhạc cụ, v.v.)
  • Tệp VSAM của IBM có chứa EBCDIC?
  • Tập tin OS / 2 Lotus Notes (được mã hóa)

Điều gì về các loại tệp chính như những người được Guy Coder liệt kê trong các bình luận? Bạn có biết một công cụ xử lý gọn gàng những filetypes này không? MS Office và PDF là những ưu tiên chính.
dùng72923
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.