RNG, R, mclapply và cụm máy tính

10

Tôi đang chạy một mô phỏng trên R và một cụm máy tính và gặp vấn đề sau. Trên mỗi máy tính X tôi chạy:

fxT2 <- function(i) runif(10)
nessay <- 100
c(mclapply(1:nessay, fxT2), recursive=TRUE)

Có 32 máy tính, mỗi máy có 16 lõi. Tuy nhiên, khoảng 2% số ngẫu nhiên là giống hệt nhau. Những chiến lược nào bạn sẽ áp dụng để tránh điều này?

Tôi đã có thể tránh vấn đề này cho fxT2 bằng cách đặt độ trễ (nghĩa là trì hoãn trong một giây thời gian mà mỗi công việc được gửi đến từng máy tính X). Nhưng nó có vẻ rất đặc biệt đối với fxt2.

Vấn đề là trong thực tế fxT2 là một nhiệm vụ dài liên quan đến các số ngẫu nhiên giả. Khi kết thúc quá trình, tôi hy vọng sẽ có được sao chép X * nessay của cùng một thử nghiệm thống kê, chứ không phải sao chép nessay. Làm thế nào để đảm bảo rằng đây thực sự là trường hợp và có cách nào để kiểm tra điều này?.

r random-generation parallel-computing multicore

— người dùng603
nguồn

Câu hỏi hay. Hãy xem câu hỏi này về các số ngẫu nhiên và gói đa lõi

— csgillespie 17/211

@CSgillepsie:> cảm ơn con trỏ, nhưng tôi không chắc đó là vấn đề tương tự: cách tôi hiểu câu hỏi mà bạn đã chỉ ra, tất cả các quy trình được sinh ra bởi mclapply. Ở đây có một chút khác biệt: trên mỗi máy, tất cả các quy trình được sinh ra bởi mclapply, nhưng đây không phải là trường hợp trên các máy.

— user603

6

Các tuyết đã hỗ trợ rõ ràng để khởi số lượng nhất định của RNG suối trong tính toán cluster.

Nó có thể sử dụng một trong hai triển khai RNG:

rsprng và
người mua

Nếu không, bạn phải làm việc phối hợp bằng tay.

— Dirk Eddelbuettel
nguồn

3

Bạn cần sử dụng RNG được thiết kế riêng cho tính toán song song. Xem phần "Tính toán song song: Số ngẫu nhiên" trong Chế độ xem tác vụ tính toán hiệu suất cao .

— Joshua Ulrich
nguồn

Bạn cũng cần phối hợp giữa các luồng RNG. Tuyết làm điều đó, đa lõi có thể bây giờ.

— Dirk Eddelbuettel