Tài nguyên xử lý cụm cần thiết cho 50 Gb DEM?


9

Đối với "mục đích thuê", tôi phải chỉ định tài nguyên điện toán tôi cần từ trung tâm điện toán tại trường đại học của tôi. Tôi có rất ít ý tưởng về những gì để yêu cầu.

Xem xét các thông tin dưới đây bạn có thể đề nghị một cái gì đó?

Đây là cụm tính toán: "Một máy chủ mười lưỡi với mỗi lưỡi gồm 2 CPU Intel Xeon 2.33 Ghz với 4 GB bộ nhớ cho tổng số 80 CPU và 160 GB bộ nhớ. Tài khoản trên hệ thống đĩa 2 TB. Linux 64 bit "

Với nén không mất dữ liệu, dữ liệu gốc là một tệp tiff 50gb. Tại một số thời điểm tôi sẽ làm việc với một số (tối đa mười) tệp có kích thước 50gb.

Tôi sẽ sử dụng kịch bản GDAL, Python và có thể là C ++. Nếu được phép, tôi sẽ sử dụng các phần mềm như Grass GIS và Saga GIS. Ngoài ra, ngôn ngữ R với các thư viện không gian. Tôi sẽ lấy các tham số địa hình thông thường, cố gắng áp dụng các thuật toán hướng đối tượng để trích xuất các tính năng cụ thể (địa hình) và sử dụng phân tích thống kê cho mục đích mô tả và mô hình hóa.


3
Chính xác những gì bạn đang mong đợi từ một câu trả lời - số lượng hoặc số lượng có thể được yêu cầu? Số lượng lưỡi, số lõi trên 1 lưỡi, v.v? Có một hình thức bạn phải điền vào có thể đưa ra bất kỳ manh mối nào không?
blah238

1
Chào blah Không có hình thức. Người giám sát của tôi đang hỏi tôi những câu hỏi này trước đó (với một cái gì đó trong tâm trí tôi không nhận thức được). Nhưng, sau này, khi truy cập vào nền tảng, số lượng bộ xử lý phải được chỉ định chính xác, cũng như nhu cầu bộ nhớ dự kiến ​​và thời gian xử lý. Vì vậy, nó sẽ là tốt để có một ý tưởng về không. của bộ xử lý và dung lượng bộ nhớ cho phép thực hiện đại số ma trận đơn giản (A * 0,1 + B + C / 50), mỗi ma trận có kích thước 50Gb, ví dụ, chưa đầy một giờ (xem xét rằng phần mềm cho phép tính toán song song ). Cảm ơn bạn.
Marco

2
Nó có thể giúp nếu bạn xác định chiến lược của mình để tấn công vấn đề trước. Tôi không tin rằng 'ngoài hộp' các tập lệnh Python của bạn (sử dụng các ràng buộc GDAL) sẽ có thể tận dụng nhiều bộ xử lý. Làm thế nào để bạn có kế hoạch phân chia dữ liệu và làm việc để xử lý song song. Sau đó, bạn có thể chạy một số thử nghiệm trên một đoạn dữ liệu và ngoại suy tổng thời gian xử lý dựa trên số lượng lõi mà bạn dự định sử dụng, v.v.
DavidF

Cảm ơn David. Tôi đã suy nghĩ kỹ hơn về điều này. Tôi sẽ làm một số thử nghiệm với Matlab.
Marco

Câu trả lời:


2

Vì vậy, nó sẽ là tốt để có một ý tưởng về không. của bộ xử lý và dung lượng bộ nhớ cho phép thực hiện đại số ma trận đơn giản (A * 0,1 + B + C / 50)

Như DavidF đã nêu trong các ý kiến ​​quan trọng hơn là chiến lược, đừng bận tâm đến máy móc, bạn không thể chạy (hoặc đó không phải là một ý tưởng tốt để chạy) một đại số ma trận 50 GB với toàn bộ ma trận ngay từ khi nó ám chỉ rằng toàn bộ ma trận phải được ghi vào bộ nhớ.

Một chiến lược tốt, nhanh chóng, rất dễ dàng và hiệu quả là sử dụng gdal_calc , đọc và ghi raster theo từng đoạn nên rất hiệu quả về bộ nhớ.

Ví dụ: gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc = "(A + B) / 2"

Hãy thử, rất có thể bạn có thể chạy xử lý trong máy tính để bàn của mình và sau đó bạn có thể chỉ cần một máy tốt hơn để tăng tốc quá trình hay không.

Quan sát: Bạn cần spam nhiều quy trình gdal_calc để tận dụng lợi thế của bộ xử lý đa lõi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.