Web cạo khung trong htm;

-1

Tôi mới làm quen với web cạo. Tôi đang cố gắng để cạo các thông tin được liên kết trong https://www.harris.com/careers/jobs cho từng vị trí công việc. Thông tin được chứa trong XPath sau: // * [@ id = "frmJobs"]. Tôi đang sử dụng plugin "Scraper" của Chrome. Plugin không thể chọn khung bằng tất cả các bộ chọn có sẵn. Tôi tự hỏi liệu có một cách dễ dàng để tạo một sơ đồ trang web sẽ vào trong khung và trích xuất tất cả thông tin được liên kết. Xin vui lòng cho tôi biết nếu điều này là có thể.

google-chrome google-chrome-extensions

— user32882
nguồn

-1

Chà, tôi đã thử Octopude, công cụ quét web để trích xuất dữ liệu khung và tôi đã có được tất cả thông tin tôi muốn. Tôi nhập "sức khỏe cộng đồng" chẳng hạn trong hộp văn bản để tìm kiếm công việc và trích xuất các kết quả đó. Tôi tải lên tệp .otd đó là quy tắc cấu hình sử dụng Octopude để trích xuất các công việc về sức khỏe cộng đồng . Kết quả trích xuất các công việc của y tế công cộng được hiển thị dưới đây.

— JacKyou
nguồn