Các bộ dữ liệu / API mạng xã hội có sẵn công khai

26

Là một phần mở rộng cho danh sách tuyệt vời các bộ dữ liệu có sẵn công khai của chúng tôi, tôi muốn biết liệu có bất kỳ danh sách các bộ dữ liệu / API thu thập dữ liệu mạng xã hội có sẵn công khai nào không. Sẽ rất tuyệt nếu cùng với liên kết đến tập dữ liệu / API, các đặc điểm của dữ liệu có sẵn đã được thêm vào. Những thông tin này nên và không giới hạn ở:

tên của mạng xã hội;
loại thông tin người dùng nào nó cung cấp (bài đăng, hồ sơ, mạng lưới tình bạn, ...);
liệu nó có cho phép thu thập nội dung của nó thông qua API hay không (và tốc độ: 10 / phút, 1k / tháng, ...);
cho dù nó chỉ đơn giản là cung cấp một ảnh chụp nhanh của toàn bộ dữ liệu.

Bất kỳ đề xuất và đặc điểm hơn nữa để được thêm vào đều rất đáng hoan nghênh.

open-source dataset crawling

— Rubens
nguồn

20

Một vài từ về API mạng xã hội. Khoảng một năm trước tôi đã viết một bài đánh giá về API của các mạng xã hội phổ biến cho các nhà nghiên cứu. Thật không may, nó là tiếng Nga. Đây là một bản tóm tắt:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

hầu như tất cả dữ liệu về tweet / văn bản và người dùng đều có sẵn;
thiếu dữ liệu xã hội học;
API phát trực tuyến tuyệt vời: hữu ích cho xử lý văn bản theo thời gian thực;
rất nhiều hàm bao cho các ngôn ngữ lập trình;
có được cấu trúc mạng (kết nối) là có thể, nhưng tốn thời gian (1 yêu cầu mỗi 1 phút).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

giới hạn tốc độ: khoảng 1 yêu cầu mỗi giây;
tài liệu tốt, hiện tại hộp cát;
FQL (giống như SQL) và «Nghỉ ngơi thường xuyên» API đồ thị;
dữ liệu hữu nghị và các tính năng xã hội học hiện tại;
rất nhiều dữ liệu nằm ngoài phạm vi sự kiện : chỉ có dữ liệu bạn bè và bạn bè mới hoàn thành ít nhiều, hầu như không có gì có thể được điều tra về người dùng ngẫu nhiên;
một số lỗi API lạ và có vẻ như không ai quan tâm đến nó (ví dụ: một số tính năng có sẵn thông qua FQL, nhưng không thông qua từ đồng nghĩa API đồ thị).

Instagram ( http://instagram.com/developer/ )

giới hạn tỷ lệ: 5000 yêu cầu mỗi giờ;
API thời gian thực (như API phát trực tuyến cho Twitter, nhưng có ảnh) - kết nối với nó hơi khó khăn một chút: gọi lại được sử dụng;
thiếu dữ liệu xã hội học;
hình ảnh, bộ lọc dữ liệu có sẵn;
sự không hoàn hảo bất ngờ (ví dụ: chỉ có thể thu thập 150 bình luận để đăng / ảnh).

Foursquare ( https: //developer.fiến.com/overview/ )

giới hạn tỷ lệ: 5000 yêu cầu mỗi giờ;
vương quốc dữ liệu địa lý xã hội :)
khá kín từ các nghiên cứu vì vấn đề riêng tư. Để thu thập dữ liệu đăng nhập, người ta cần xây dựng trình phân tích cú pháp tổng hợp làm việc với các API 4sq, bit.ly và twitter cùng một lúc;
một lần nữa: thiếu dữ liệu xã hội học.

Google+ ( https://developers.google.com/+/api/latest/ )

khoảng 5 yêu cầu mỗi giây (cố gắng xác minh);
phương pháp chính: hoạt động và con người;
Giống như trên Facebook, rất nhiều dữ liệu cá nhân cho người dùng ngẫu nhiên bị ẩn đi;
thiếu dữ liệu kết nối người dùng.

Và ngoài cuộc thi: Tôi đã xem xét các mạng xã hội dành cho độc giả Nga và mạng số 1 ở đây là vk.com . Nó được dịch sang nhiều ngôn ngữ, nhưng chỉ phổ biến ở Nga và các nước CIS khác. Liên kết tài liệu API: http://vk.com/dev/ . Và theo quan điểm của tôi, đó là sự lựa chọn tốt nhất cho nghiên cứu truyền thông xã hội homebrew. Ít nhất, ở Nga. Đó là lý do:

giới hạn tốc độ: 3 yêu cầu mỗi giây;
dữ liệu công cộng và dữ liệu truyền thông có sẵn;
dữ liệu xã hội học có sẵn: đối với mức độ sẵn có của người dùng ngẫu nhiên là khoảng 60-70%;
kết nối giữa những người dùng cũng có sẵn: hầu như tất cả dữ liệu kết bạn cho người dùng ngẫu nhiên đều khả dụng;
một số phương pháp đặc biệt: ví dụ: có một phương pháp để có trạng thái trực tuyến / ngoại tuyến cho người dùng chính xác trong thời gian thực và người ta có thể xây dựng lịch trình cho khán giả của mình.

— thổn thức
nguồn

1

Tuyệt vời! Tôi đã thực sự mong đợi một cái gì đó như thế này hòa tan vào nhiều câu trả lời, và bạn đã mang theo toàn bộ: D Cảm ơn câu trả lời. Công việc tốt! :)

— Rubens

1

Tôi đã để lại phạm vi LinkedIn, YouTube, Secret. Có lẽ các mạng khu vực khác (QQ?). Và sẽ rất vui khi nhận được bất kỳ thông tin về họ.

— sobach

8

Đây không phải là mạng xã hội, nhưng Stackexchange xuất bản toàn bộ cơ sở dữ liệu của họ theo định kỳ:

Bạn có thể trích xuất một số thông tin xã hội bằng cách phân tích những người dùng hỏi và trả lời cho nhau. Một điều tuyệt vời là vì các bài đăng được gắn thẻ, bạn có thể phân tích các cộng đồng phụ một cách dễ dàng.

— Bàn Bobby nhỏ
nguồn

6

Một danh sách tốt các bộ dữ liệu mạng xã hội có sẵn công khai có thể được tìm thấy trên trang web Dự án Phân tích Mạng Stanford:

Bộ dữ liệu SNAP

Trang web chứa dữ liệu mạng xã hội internet (Facebook, Twitter, Google Plus), mạng trích dẫn cho các tạp chí học thuật, mạng đồng mua từ Amazon và một số loại mạng khác. Họ đã vẽ đồ thị theo hướng, vô hướng và lưỡng cực và tất cả các bộ dữ liệu là ảnh chụp nhanh có thể được tải xuống ở dạng nén.

— Bến
nguồn

5

Một ví dụ từ Đức: Xing một trang web tương tự như Linkedin nhưng giới hạn ở các quốc gia nói tiếng Đức.

Liên kết với trung tâm nhà phát triển của nó: https://dev.xing.com/overview

Cung cấp quyền truy cập vào: Hồ sơ người dùng, Cuộc trò chuyện giữa những người dùng (giới hạn ở chính người dùng), Quảng cáo việc làm, Danh bạ và Danh bạ của Danh bạ, tin tức từ mạng và một số api định vị địa lý.

Vâng, nó có một api, nhưng tôi không tìm thấy thông tin về tỷ lệ. Nhưng dường như đối với tôi, một số thông tin chỉ giới hạn ở sự đồng ý của người dùng.

— Christian Sauer
nguồn

4

Kho lưu trữ mạng ( http://networkreposective.com ) có hàng tấn mạng xã hội, đồ thị web, mạng sinh học và não, v.v. Tốt nhất, họ cũng có các công cụ phân tích trực quan tương tác để so sánh / khám phá các mạng xã hội khác nhau.

— Stein
nguồn

2

Một bộ sưu tập nhỏ các liên kết như vậy có thể được tìm thấy ở đây . Nhiều người trong số họ là đồ thị xã hội.

— lgylym
nguồn

Tôi cảm ơn bạn rất nhiều vì đã đăng tài liệu tham khảo này, nhưng tôi đã mong đợi các câu trả lời ở đây sẽ chỉ ra một bộ dữ liệu / API công khai cho mạng xã hội, và cũng mô tả những gì được cung cấp bởi nguồn đó (tốc độ tải xuống của bài đăng hoặc loại thông tin nào về người dùng). Như câu trả lời của bạn là, tôi đoán nó sẽ rất được hoan nghênh vào danh sách các bộ dữ liệu có sẵn công khai mà chúng tôi có.

— Rubens

0

Văn bản tiếng Thái từ các nền tảng truyền thông xã hội khác nhau + nhãn tình cảm (tích cực, trung tính, tiêu cực).

— bact '
nguồn