Câu trả lời:
Một chỉ mục lớn các trang facebook đã được tạo và có sẵn dưới dạng torrent (Đó là ~ 2,8Gb) http://btjunkie.org/torrent/Facebook-directory-personal-details-for-100-million-users/3979e54c73099d291605e75a75a
Các bộ dữ liệu Twitter được gắn thẻ trên Infochimps: http://infochimps.com/tags/twitter
Một bộ dữ liệu lastfm có sẵn tại http://mtg.upf.edu/node/1671
Chỉ cần tìm thấy điều này: 476 triệu tweet trên Twitter (thông qua @yarapavan ).
Chúng tôi đã tuyển chọn một bộ dữ liệu Twitter cho bạn bè của người dùng vào năm 2009 và sau đó vào năm 2009. Bạn có thể tìm thêm thông tin ở đây: http://strict.dista.uninsubria.it/?p=364
Biểu đồ xã hội Facebook, cài đặt ứng dụng và người dùng Last.fm, sự kiện, nhóm tại http://odysseas.calit2.uci.edu/research/
Hai bộ dữ liệu (được thu thập từ tháng 4 đến tháng 5 năm 2009) có chứa các mẫu đại diện của ~ 1 triệu người dùng trên toàn Facebook, với một vài thuộc tính được chú thích: cho mỗi người dùng được lấy mẫu, danh sách bạn bè, cài đặt quyền riêng tư và thành viên mạng được bao gồm. Một bộ dữ liệu thứ ba (được thu thập vào tháng 2 năm 2008) bao gồm một biểu đồ lưỡng cực đại diện cho các cài đặt ứng dụng của người dùng Facebook. Một bộ dữ liệu thứ tư với Daily Active Users và cài đặt ứng dụng trong hơn 6 tháng (được thu thập từ tháng 9 năm 2007 đến tháng 2 năm 2008). Một bộ dữ liệu thứ năm bao gồm một mẫu đại diện của người dùng Last.fm thu được bằng cách sử dụng lấy mẫu nhiều chữ (được thu thập vào tháng 7 năm 2010).
Một nguồn tốt để tìm bộ dữ liệu là:
/ r / bộ dữ liệu trên Reddit.
Nhìn lướt qua trang đó cho thấy nguồn này , có thể chứa một cái gì đó hữu ích cho bạn.
Bài viết này sử dụng một bộ dữ liệu facebook có sẵn ở đây. Dưới đây là mô tả từ các tác giả:
Dữ liệu bao gồm tập hợp đầy đủ các nút và liên kết (và một số thông tin về nhân khẩu học) từ 100 trường cao đẳng và đại học Hoa Kỳ từ ảnh chụp một lần vào tháng 9 năm 2005.