Làm việc trên các dự án thường có thể được gọi là dự án "dữ liệu trung bình", tôi đã có thể song song mã của mình (chủ yếu để lập mô hình và dự đoán trong Python) trên một hệ thống duy nhất ở mọi nơi từ 4 đến 32 lõi. Bây giờ tôi đang xem xét mở rộng các cụm trên EC2 (có thể là với StarCluster / IPython, nhưng cũng mở cho các đề xuất khác), và đã bị bối rối bởi cách điều hòa công việc phân phối trên các lõi trên một ví dụ so với các trường hợp trên một cụm.
Nó thậm chí còn thiết thực để song song giữa các phiên bản cũng như giữa các lõi trên mỗi phiên bản? Nếu vậy, bất cứ ai cũng có thể đưa ra một bản tóm tắt nhanh chóng về ưu điểm + nhược điểm của việc chạy nhiều phiên bản với một vài lõi so với một vài trường hợp có nhiều lõi? Có một quy tắc ngón tay cái nào để chọn tỷ lệ đúng của các thể hiện cho các lõi trên mỗi thể hiện không?
Băng thông và RAM là những mối quan tâm không hề nhỏ trong các dự án của tôi, nhưng thật dễ dàng nhận ra khi đó là những điểm nghẽn và điều chỉnh. Khó hơn nhiều, tôi tưởng tượng, để chuẩn hóa sự pha trộn đúng lõi cho các trường hợp mà không cần kiểm tra lặp lại, và các dự án của tôi thay đổi quá nhiều cho bất kỳ thử nghiệm đơn lẻ nào áp dụng cho mọi trường hợp. Cảm ơn trước và nếu tôi thất bại trong việc tìm kiếm cái này đúng cách, vui lòng chỉ cho tôi câu trả lời đúng ở một nơi khác!