Xử lý các tập dữ liệu lớn trong R - hướng dẫn, thực tiễn tốt nhất, v.v.


11

Tôi là một nhân viên R được yêu cầu thực hiện nhiều loại phân tích trên các tập dữ liệu lớn ở R. Vì vậy, trong khi tìm kiếm xung quanh trang web này và các nơi khác, tôi nhận thấy có rất nhiều vấn đề bí truyền và ít được biết đến ở đây - như sử dụng gói nào khi nào, biến đổi nào (không) áp dụng trên dữ liệu, v.v.

Tôi chỉ tự hỏi nếu có một cuốn sách / hướng dẫn / hướng dẫn làm sáng tỏ tất cả điều này và trình bày thông tin một cách có hệ thống? Tôi thích làm điều này thay vì nhìn xung quanh và đối chiếu thông tin từ các nguồn khác nhau trực tuyến.

Cảm ơn trước.


2
Đây có thể là một sự khởi đầu: cran.r-project.org/web/view/HighPerformanceComputing.html
Roman Luštrik

1
Nó có thể giúp chia sẻ một số ví dụ về loại phân tích bạn muốn làm và dữ liệu của bạn trông như thế nào. Số liệu thống kê đơn giản như phương tiện hoặc hồi quy phức tạp? 200 biến trên một nghìn hàng, hoặc 4 biến và 20 triệu hàng?
PaulHurleyuk

1
Nếu bạn có bộ dữ liệu thực sự "lớn", có lẽ bạn nên xem qua cơ sở dữ liệu quan hệ. Điểm khởi đầu cho việc này có thể là hướng dẫn "Nhập / xuất dữ liệu R" đi kèm với RNB, hướng dẫn cũng có sẵn thông qua phần "Hướng dẫn" trên trang web R.

1
Đầu tiên, câu hỏi quan trọng: Ý của bạn là gì, và bạn muốn làm gì?
Fomite

Câu trả lời:


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.