Một trong những vấn đề phổ biến trong khoa học dữ liệu là thu thập dữ liệu từ nhiều nguồn khác nhau theo định dạng được làm sạch bằng cách nào đó (bán cấu trúc) và kết hợp các số liệu từ nhiều nguồn khác nhau để thực hiện phân tích cấp cao hơn. Nhìn vào nỗ lực của người khác, đặc biệt là các câu hỏi khác trên trang web này, có vẻ như nhiều người trong lĩnh vực này đang làm công việc có phần lặp đi lặp lại. Ví dụ: phân tích các tweet, bài đăng trên facebook, bài viết trên Wikipedia, v.v ... là một phần của rất nhiều vấn đề dữ liệu lớn.
Một số bộ dữ liệu này có thể truy cập được bằng các API công khai do trang web của nhà cung cấp cung cấp, nhưng thông thường, một số thông tin hoặc số liệu có giá trị bị thiếu trong các API này và mọi người phải thực hiện phân tích lặp đi lặp lại. Ví dụ: mặc dù người dùng phân cụm có thể phụ thuộc vào các trường hợp sử dụng và lựa chọn tính năng khác nhau, nhưng việc phân nhóm cơ sở người dùng Twitter / Facebook có thể hữu ích trong nhiều ứng dụng Dữ liệu lớn, do API cung cấp và không có sẵn công khai trong các bộ dữ liệu độc lập .
Có bất kỳ chỉ mục hoặc trang web lưu trữ dữ liệu có sẵn công khai có chứa các bộ dữ liệu có giá trị có thể được sử dụng lại để giải quyết các vấn đề dữ liệu lớn khác không? Tôi có nghĩa là một cái gì đó như GitHub (hoặc một nhóm các trang web / bộ dữ liệu công cộng hoặc ít nhất là một danh sách toàn diện) cho khoa học dữ liệu. Nếu không, những lý do cho việc không có một nền tảng như vậy cho khoa học dữ liệu là gì? Giá trị thương mại của dữ liệu, cần thường xuyên cập nhật bộ dữ liệu, ...? Chúng ta không thể có một mô hình nguồn mở để chia sẻ các tập dữ liệu được tạo ra cho các nhà khoa học dữ liệu?