Vài điều trong cuộc sống mang lại cho tôi niềm vui như cạo dữ liệu có cấu trúc và không cấu trúc từ Internet và sử dụng nó trong các mô hình của tôi.
Chẳng hạn, Bộ công cụ khoa học dữ liệu (hoặc RDSTK
dành cho lập trình viên R) cho phép tôi lấy nhiều dữ liệu dựa trên vị trí tốt bằng cách sử dụng IP hoặc địa chỉ và gói tm.webmining.plugin
for R tm
giúp loại bỏ dữ liệu tài chính và tin tức một cách đơn giản. Khi đi xa hơn những dữ liệu có cấu trúc (bán) như vậy tôi có xu hướng sử dụng XPath
.
Tuy nhiên, tôi liên tục bị điều chỉnh bởi các giới hạn về số lượng truy vấn bạn được phép thực hiện. Tôi nghĩ rằng Google giới hạn tôi khoảng 50.000 yêu cầu mỗi 24 giờ, đây là một vấn đề đối với Dữ liệu lớn.
Từ góc độ kỹ thuật, việc vượt qua các giới hạn này rất dễ dàng - chỉ cần chuyển đổi địa chỉ IP và lọc các định danh khác khỏi môi trường của bạn. Tuy nhiên, điều này thể hiện cả mối quan tâm về đạo đức và tài chính (tôi nghĩ sao?).
Có một giải pháp mà tôi đang xem?