Gần đây tôi đã học được rằng sử dụng regex để phân tích HTML của trang web để lấy dữ liệu bạn cần không phải là cách hành động tốt nhất.
Vì vậy, câu hỏi của tôi rất đơn giản: Điều gì sau đó, là cách tốt nhất / hiệu quả nhất và nói chung là ổn định để có được dữ liệu này?
Tôi cần lưu ý rằng:
- Không có API
- Không có nguồn nào khác nơi tôi có thể lấy dữ liệu từ (không có cơ sở dữ liệu, nguồn cấp dữ liệu và như vậy)
- Không có quyền truy cập vào các tập tin nguồn. (Dữ liệu từ các trang web công cộng)
- Giả sử dữ liệu là văn bản bình thường, được hiển thị trong bảng trong trang html
Tôi hiện đang sử dụng python cho dự án của mình nhưng một giải pháp / mẹo độc lập về ngôn ngữ sẽ rất tuyệt.
Như một câu hỏi phụ: Bạn sẽ tìm hiểu về nó như thế nào khi trang web được xây dựng bởi các cuộc gọi Ajax?
BIÊN TẬP:
Trong trường hợp phân tích cú pháp HTML, tôi biết rằng không có cách nào ổn định thực sự để lấy dữ liệu. Ngay khi trang thay đổi, trình phân tích cú pháp của bạn đã hoàn tất. Ý tôi là ổn định trong trường hợp này là: một cách hiệu quả để phân tích trang, luôn mang lại cho tôi kết quả tương tự (rõ ràng cho cùng một bộ dữ liệu) với điều kiện trang không thay đổi.