Làm thế nào để tìm các trang liên kết đến một trang cụ thể?


1

Tôi có trang sau

http://www.fda.gov/doads/scienceresearch/fieldscience/laboratorymanual/ucm092156.pdf

Tôi muốn tìm các trang trên www.fda.gov có liên kết đến trang này không? Làm thế nào tôi có thể làm điều đó?


Có nghĩa là gì bởi các liên kết đến trang này ? Địa điểm trên trang web của FDA trỏ đến liên kết cụ thể đó?
Tim G.

Các địa điểm trên trang web của FDA trỏ đến liên kết cụ thể đó, vâng
Norfeldt

Câu trả lời:


2
  1. Bạn có thể sử dụng wgetđể tải xuống đệ quy toàn bộ trang web:

    wget --recursive --page-requisites --html-extension --no-parent --domains www.fda.gov www.fda.gov

  2. Sau đó, bạn có thể sử dụng egrepđể tìm kiếm đệ quy qua tất cả các tệp để tìm trang nào liên kết đến ucm092156.pdf:

    egrep -r -o '*ucm092156.pdf' www.fda.gov/


Tôi có mac và windows .. không có Linux
Norfeldt

Sử dụng homebrew để có được wget ..
Norfeldt

2
Xin lưu ý, quản trị viên web có thể không vui lòng truy cập trang web của họ, đặc biệt nếu bạn có kết nối băng thông cao. Hoàn toàn có thể là địa chỉ IP của bạn có thể bị liệt vào danh sách đen. Bạn cũng có thể bao gồm --limit-ratecờ để giảm khả năng điều đó xảy ra. Ví dụ: --limit-rate=100ksẽ giảm tốc độ tải xuống của bạn xuống 100KB / giây
Đánh dấu Riddell

và bạn nói với tôi điều này ngay bây giờ ... nó đang cào trang web khi chúng tôi nói chuyện
Norfeldt

2
BTW Tôi thấy rằng grep -rl '*ucm092156.pdf' www.fda.gov/trên mac làm công việc tương tự. (vẫn đang chờ nó hoàn tất quá trình tải xuống, nhưng có vẻ vẫn ổn cho đến nay)
Norfeldt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.