Làm cách nào để trích xuất tất cả các liên kết bên ngoài của trang web và lưu chúng vào một tệp?


11

Làm cách nào để trích xuất tất cả các liên kết bên ngoài của trang web và lưu chúng vào một tệp?

Nếu bạn có bất kỳ công cụ dòng lệnh nào sẽ là tuyệt vời.

Câu trả lời:


18

Bạn sẽ cần 2 công cụ, lynxawk , hãy thử điều này:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

Nếu bạn cần đánh số dòng, sử dụng lệnh nl , hãy thử điều này:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

Tôi không nghĩ rằng nó sẽ hoạt động cho các url tương đối
Sridhar Sarnobat

8

Đây là một cải tiến về câu trả lời của lelton: bạn hoàn toàn không cần awk vì lynx có một số tùy chọn hữu ích.

lynx -listonly -nonumbers -dump http://www.google.com.br

nếu bạn muốn số

lynx -listonly -dump http://www.google.com.br

0
  1. Sử dụng Beautiful Soup để lấy các trang web trong câu hỏi.
  2. Sử dụng awk để tìm tất cả các URL không trỏ đến tên miền của bạn

Tôi muốn giới thiệu Beautiful Soup qua các kỹ thuật cạo màn hình.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.