Tôi mã rất nhiều trình phân tích cú pháp. Cho đến bây giờ, tôi đã sử dụng trình duyệt không đầu HtmlUnit để phân tích cú pháp và tự động hóa trình duyệt.
Bây giờ, tôi muốn tách cả hai nhiệm vụ.
Vì 80% công việc của tôi chỉ liên quan đến phân tích cú pháp, tôi muốn sử dụng trình phân tích cú pháp HTML nhẹ vì phải mất nhiều thời gian trong HtmlUnit để tải trang trước, sau đó lấy nguồn và sau đó phân tích cú pháp.
Tôi muốn biết trình phân tích cú pháp HTML nào là tốt nhất. Trình phân tích cú pháp sẽ tốt hơn nếu nó gần với trình phân tích cú pháp HtmlUnit.
BIÊN TẬP:
Tốt nhất, tôi muốn ít nhất các tính năng sau:
- Tốc độ
- Dễ dàng xác định vị trí bất kỳ HtmlE bổ sung bằng "id" hoặc "tên" hoặc "loại thẻ" của nó.
Nó sẽ ổn với tôi nếu nó không làm sạch mã HTML bẩn. Tôi không cần phải xóa bất kỳ nguồn HTML nào. Tôi chỉ cần một cách dễ nhất để di chuyển qua HtmlElements và thu thập dữ liệu từ chúng.