Tôi đang cố gắng cạo dữ liệu từ một trang web để nghiên cứu.
Các url được tổ chức độc đáo theo định dạng example.com/x, với x là số tăng dần và tất cả các trang được cấu trúc theo cùng một cách. Tôi chỉ cần lấy các tiêu đề nhất định và một vài con số luôn ở cùng một vị trí. Sau đó, tôi sẽ cần đưa dữ liệu này vào dạng có cấu trúc để phân tích trong Excel.
Trước đây tôi đã sử dụng wget để tải xuống các trang, nhưng tôi không thể tìm ra cách lấy các dòng văn bản cụ thể.
Excel có một tính năng để lấy dữ liệu từ web (Dữ liệu- & gt; Từ Web) nhưng từ những gì tôi có thể thấy, nó chỉ cho phép tôi tải xuống các bảng. Thật không may, dữ liệu tôi cần không có trong bảng.