Ai sử dụng R với gói đa lõi, SNOW hoặc CUDA cho tính toán cường độ tài nguyên?


16

Ai trong số bạn trong diễn đàn này sử dụng "> R với đa lõi , gói tuyết hoặc CUDA , vì vậy đối với các tính toán nâng cao cần nhiều năng lượng hơn CPU máy trạm? Bạn sẽ tính toán các tập lệnh này ở nhà nào? trung tâm dữ liệu truy cập ở đâu đó?

Bối cảnh của những câu hỏi này là như sau: Tôi hiện đang viết M.Sc. luận án về R và tính toán hiệu năng cao và cần có kiến ​​thức vững chắc về người thực sự sử dụng R. Tôi đọc rằng R có 1 triệu người dùng trong năm 2008, nhưng đó ít nhiều là số liệu thống kê người dùng duy nhất tôi có thể tìm thấy về chủ đề này - vì vậy tôi hy vọng cho bạn câu trả lời!

Trân trọng Heinrich


Một câu hỏi có thể liên quan, stats.stackexchange.com/questions/825/ .
chl

Câu trả lời:


6

Tôi là một nhà sinh vật học mô hình hóa các tác động của biến đổi khí hậu giữa các năm đối với động lực học dân số của một số loài di cư. Các bộ dữ liệu của tôi rất lớn (dữ liệu chuyên sâu về không gian) vì vậy tôi chạy mã R của mình bằng cách sử dụng multicoretrên các máy chủ Amazon EC2. Nếu nhiệm vụ của tôi đặc biệt tốn nhiều tài nguyên, tôi sẽ chọn một phiên bản Bộ nhớ lớn tăng gấp bốn lần đi kèm với 26 đơn vị CPU, 8 lõi và 68G RAM. Trong trường hợp này, tôi thường chạy đồng thời 4 - 6 tập lệnh, mỗi tập lệnh đang hoạt động thông qua một tập dữ liệu khá lớn. Đối với các tác vụ nhỏ hơn, tôi chọn các máy chủ có 4 - 6 nhân và khoảng 20 hợp đồng RAM.

Tôi khởi chạy các phiên bản này (thường là các phiên bản tại chỗ vì chúng rẻ hơn nhưng có thể chấm dứt bất cứ lúc nào tỷ lệ hiện tại vượt quá mức tôi đã chọn để trả), chạy tập lệnh trong vài giờ và sau đó chấm dứt phiên bản sau khi tập lệnh của tôi kết thúc. Đối với hình ảnh máy (Amazon Machine Image), tôi đã lấy một người nào đó cài đặt Ubuntu, cập nhật R, cài đặt các gói của tôi và lưu nó dưới dạng AMI riêng trên không gian lưu trữ S3 của tôi.

Máy cá nhân của tôi là một macbook pro dualcore và nó có một thời gian khó khăn để thực hiện các cuộc gọi đa lõi. Vui lòng gửi email nếu bạn có câu hỏi khác.


Bạn có thể vui lòng cho biết kích thước của tập dữ liệu của bạn là gì.
suncoolsu

Chắc chắn rồi. Các bộ dữ liệu tôi hiện đang làm việc là ~ 14 hợp đồng biểu diễn
Maiasaura

4

Vì bạn hỏi, tôi đang sử dụng gói foreach với phần phụ trợ đa lõi . Tôi sử dụng nó để phân chia một khối lượng công việc song song đáng xấu hổ trên nhiều lõi trên một hộp Nehalem duy nhất có nhiều RAM. Điều này hoạt động khá tốt cho các nhiệm vụ trong tầm tay.


Cảm ơn câu trả lời của bạn! Bạn có tính toán cho công việc / nghiên cứu học thuật của bạn hoặc cho các dự án riêng trên PC riêng không?
Heinrich

Điều này được thực hiện trong một thiết lập thương mại. Đối với tác vụ này, tôi đang sử dụng một hộp Intel duy nhất có 32GB RAM và đĩa RAID (khó khăn chính là rất nhiều dữ liệu, trong khi bản thân việc xử lý không đòi hỏi nhiều về mặt tính toán.)
NPE

Được rồi @aix, tần suất bạn thực hiện các tính toán này. Bạn có hộp chạy cả ngày hoặc nhàn rỗi?
Heinrich

Câu hỏi nhanh cho @NPE: bạn lưu trữ dữ liệu trong hệ thống nào? Bạn có sử dụng cơ sở dữ liệu back-end?
nassimhddd

3

Tôi làm việc trong học viện và tôi đang sử dụng đa lõi cho một số điểm chuẩn nặng của thuật toán học máy, chủ yếu là trên Mặt trời chòm sao dựa trên Opteron của chúng tôi và một số cụm nhỏ hơn; đó cũng là những vấn đề song song khá lúng túng, vì vậy vai trò chính của đa lõi là truyền bá tính toán qua nút mà không nhân bội sử dụng bộ nhớ.


Chúng tôi ở Hamburg luôn có một vấn đề là thời gian chờ đợi cho các trung tâm dữ liệu học thuật thực sự dài. nó có giống với bạn không?
Heinrich

@Heinrich Tôi làm việc cho một loại trung tâm dữ liệu học thuật, vì vậy tôi không gặp phải vấn đề như vậy (-; Nghiêm túc mà nói, ở Warsaw, việc cung cấp thời gian CPU khoa học lớn hơn nhu cầu, vì vậy tôi tin rằng khá dễ dàng để nhận được một khoản trợ cấp. Và Tôi nghĩ bạn nên thử D-Grid hoặc EGEE, kinh nghiệm của tôi là các lưới nói chung được sử dụng rất ít.

Oh. Điều đó thật thú vị. Bạn có biết loại R nào được sử dụng trong các doanh nghiệp này không?
Heinrich

2

Tôi sử dụng tuyết và tuyết rơi để song song hóa khóa học trên các cụm HPC và CUDA để xử lý song song dữ liệu. Tôi đang làm dịch tễ học làm mô hình truyền bệnh. Vì vậy, tôi sử dụng cả hai.


Cảm ơn thông tin của bạn. Bạn có ý nghĩa gì với việc song song hóa khóa học?
Heinrich

Song song hóa khóa học sẽ là một cái gì đó giống như các hoạt động độc lập của thay đổi MCMC., Tức là các mâm cặp rất lớn có thể chạy song song mà không cần đồng bộ hóa các luồng. Một ví dụ về hạt mịn là tính toán khả năng các phép tính có thể được thực hiện trên các điểm dữ liệu một cách độc lập.
Andrew Redd
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.