Đối với các trường hợp đơn giản là tải xuống nội dung của một trang, hãy sử dụng curl hoặc wget . Cả hai đều là các công cụ dòng lệnh được thiết kế để tải xuống các tệp qua HTTP và có nhiều tùy chọn. Trong trường hợp của bạn, bạn có thể sẽ cần làm cho các công cụ này trông giống như một trình duyệt; câu trả lời của lutzky và câu trả lời của chim cánh cụt đề cập đến một số tùy chọn cuộn tròn và wget hữu ích trong khía cạnh đó.
Đôi khi, khi bạn cần đăng nhập , việc đăng nhập thủ công trong trình duyệt web sẽ dễ dàng hơn rất nhiều, sau đó xuất cookie của trình duyệt web (các tiện ích mở rộng như allcookies hoặc Export Cookies cho Firefox có thể trợ giúp).
Nếu bạn cần phân tích nội dung của một số trang hoặc biểu mẫu bài đăng , bạn có thể cần các công cụ fancier hơn là curl và wget. Một số công cụ tốt có Perl với LWP
(libwww) và HTML::TreeBuilder
(HTML-Tree) hoặc Python với các thư viện chuẩn (đặc biệt httplib
vàhtmllib
).
Đối với các tương tác phức tạp hơn với một trang web, tham chiếu là WWW :: Cơ chế hóa của Perl . Thư viện Perl này xác định các chức năng cấp cao để tương tác với một trang web giống như trình duyệt web, bao gồm POST, biểu mẫu, cookie, nhưng không phải Javascript. Nếu Perl không phải là tách trà của bạn, thì thư viện này có mô phỏng với các khả năng tương tự trong các ngôn ngữ khác, chẳng hạn như cơ giới hóa Python và Cơ chế hóa Ruby .
Cuối cùng, khi bạn cần Javascript , cách tiếp cận thông thường là sử dụng trình duyệt web được điều khiển bởi khung tự động hóa trình duyệt. Selenium và Watir là những lựa chọn phổ biến; xem thêm Có công cụ nào tốt ngoài SeleniumRC có thể tìm nạp các trang web bao gồm nội dung được vẽ bởi JavaScript không?