Gần đây tôi đã học Python và đang nhúng tay vào việc xây dựng một trình quét web. Không có gì lạ mắt cả; Mục đích duy nhất của nó là lấy dữ liệu của một trang web cá cược và đưa dữ liệu này vào Excel.
Hầu hết các vấn đề đều có thể giải quyết được và tôi đang có một mớ hỗn độn nhỏ. Tuy nhiên, tôi đang gặp một trở ngại lớn về một vấn đề. Nếu một trang web tải một bảng ngựa và liệt kê giá cá cược hiện tại, thông tin này không có trong bất kỳ tệp nguồn nào. Manh mối là dữ liệu này đôi khi tồn tại, với những con số được cập nhật rõ ràng từ một số máy chủ từ xa. HTML trên PC của tôi chỉ đơn giản là có một lỗ hổng nơi máy chủ của họ đang lướt qua tất cả dữ liệu thú vị mà tôi cần.
Bây giờ trải nghiệm của tôi với nội dung web động còn thấp, vì vậy đây là điều tôi gặp khó khăn trong đầu.
Tôi nghĩ Java hoặc Javascript là một chìa khóa, cái này bật lên thường xuyên.
Các cạp chỉ đơn giản là một công cụ so sánh tỷ lệ cược. Một số trang web có API nhưng tôi cần điều này cho những trang không có. Tôi đang sử dụng thư viện phế liệu với Python 2.7
Tôi xin lỗi nếu câu hỏi này quá mở. Tóm lại, câu hỏi của tôi là: làm thế nào có thể sử dụng phế liệu để cạo dữ liệu động này để tôi có thể sử dụng nó? Để tôi có thể cạo dữ liệu tỷ lệ cá cược này trong thời gian thực?
Firefox
tiện ích mở rộng như httpFox
hoặc liveHttpHeaders
tải trang đang sử dụng yêu cầu ajax. Scrapy không tự động xác định các yêu cầu ajax, bạn phải tìm kiếm thủ công URL ajax thích hợp và sau đó thực hiện yêu cầu đó.