Cách tốt nhất để lưu trữ tập dữ liệu lớn bằng R từ Twitter?


8

Tôi đang làm việc trong một dự án nhằm lấy một tập dữ liệu lớn (nghĩa là dữ liệu tweet đã có vài ngày) từ Twitter sử dụng thư viện twitteR trên R. gặp khó khăn khi lưu trữ tweet vì máy của tôi chỉ có 8 GB bộ nhớ . Nó đã hết bộ nhớ ngay cả trước khi tôi cài đặt nó trong một ngày. Có cách nào để tôi có thể lưu trữ các tweet thẳng vào đĩa của mình mà không lưu trữ vào RAM không? Tôi không sử dụng API phát trực tuyến vì tôi cần có các tweet cũ.


1
Tại sao bạn không sử dụng Python hoặc chỉ các công cụ dòng lệnh để truy xuất dữ liệu Twitter, lưu nó vào các khối (chẵn gzipped) và sau đó quay lại R để phân tích?
Anton Tarasenko

Con trăn có thể lấy lại các tweet cũ bằng phương pháp bạn đã đề cập không?
kỹ thuật số

Có thể, nhưng bạn sẽ cần mua quyền truy cập API từ Twitter hoặc một người bán lịch sử Twitter khác.
Anton Tarasenko

Câu trả lời:


5

Tìm cách để làm cho chương trình của bạn ghi vào đĩa định kỳ. Giữ số lượng tweet bạn lấy và lưu sau khi số đó cao. Tôi không viết R nhưng psuedocode có thể trông như sau:

$tweets = get_tweets(); $count = 0; $tweet_array = array(); for each ($tweets as $tweet) { $tweet_array += $tweet; $count++; if ($count > 10000) { append_to_file($tweet_array, 'file_name.txt'); clear_array($tweet_array); } }


1
vâng, nó có thể là có thể trong lập trình, nhưng đối với R, cách nó xử lý dữ liệu hoàn toàn khác nhau. Tôi đang sử dụng thư viện twitteR từ R và tối thiểu một lần lấy là một ngày. Tôi không chắc chắn làm thế nào tôi sẽ tiếp tục từ điểm tôi dừng tweet nếu tôi chạy lại searchTweets func.
kỹ thuật số

Ước gì tôi biết nhiều hơn về R để giúp bạn. Lấy làm tiếc!
sheldonkreger

2

Tôi đã làm việc trong một dự án dữ liệu Twitter vào mùa thu năm ngoái, trong đó chúng tôi đã sử dụng các thư viện Java để lấy dữ liệu tweet từ luồng và các API còn lại. Chúng tôi đã sử dụng Twitter4J (một thư viện Java không chính thức) cho API Twitter .

Dữ liệu tweet đã được tìm nạp và ghi trực tiếp vào tệp văn bản trên ổ cứng của chúng tôi. Vâng, chúng tôi đã tăng bộ nhớ và đống. Tôi tin rằng R studio sẽ có một lựa chọn tương tự. Một cách khác là lấy số lượng dữ liệu tweet ít hơn với số lần lặp lại nhiều hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.