Tôi đang viết một trình thu thập thông tin trong Ruby (1.9) sử dụng rất nhiều HTML từ nhiều trang web ngẫu nhiên.
Khi cố gắng giải nén các liên kết, tôi quyết định chỉ sử dụng .scan(/href="(.*?)"/i)
thay vì nokogiri / hpricot (tăng tốc lớn). Vấn đề là bây giờ tôi nhận rất nhiều invalid byte sequence in UTF-8
lỗi "".
Theo những gì tôi hiểu, net/http
thư viện không có bất kỳ tùy chọn mã hóa cụ thể nào và những thứ đi kèm về cơ bản không được gắn thẻ đúng cách.
Cách tốt nhất để thực sự làm việc với dữ liệu đến đó là gì? Tôi đã thử .encode
với các tùy chọn thay thế và không hợp lệ được đặt, nhưng không thành công cho đến nay ...
'U*'
hoàn tác 'C*'
không?