Tôi đã gặp phải vấn đề sau trong lần tắt máy đầu tiên của cụm phòng ban Tôi chịu trách nhiệm về. Hệ thống đang chạy SLURM 17.11 và sử dụng MariaDB / SQL để lưu trữ dữ liệu kế toán.
Để thực hiện nâng cấp bộ nhớ, tôi đã phải tắt điều khiển & amp; máy chủ cơ sở dữ liệu của cụm, trong đó
đang sử dụng SLURM làm lịch trình.
Sau khi khởi động lại, daemon điều khiển đã từ chối khởi động vì rõ ràng trạng thái lưu tệp trong /var/spool
không có quyền chính xác nữa. Vì vậy, tôi đã tạo một thư mục chuyên dụng /var/spool/slurm_state
cho các tập tin trạng thái bùn và thay đổi quyền sở hữu thành slurm:slurm
. Sau khi sửa đổi sulrm.conf
để thiết lập
sự phù hợp StateSaveLocation
daemon kiểm soát bắt đầu và tôi có thể gửi công việc kiểm tra.
Tôi đã không, tuy nhiên, sao chép cũ tập tin nhà nước đến vị trí mới. Do đó, các công việc mới bắt đầu lại tại JobID 1.
Sau khi nhận ra rằng tôi nhanh chóng chấm dứt slurmctld
và thay đổi StateSaveLocation
Quay lại /var/spool
(với
nhóm thích hợp và thay đổi quyền).
Bây giờ công việc kiểm tra đã được
chạy khi trình nền điều khiển đã bị tắt bị kẹt trong cơ sở dữ liệu với trạng thái được đặt thành RUNNING
systemverwalter 2 240 9-21:40:55 100.0 RUNNING allgather_latency_240_mpich
chỉ tích lũy thời gian chạy cho tài khoản.
Tôi đã cố gắng chấm dứt công việc thông qua scancel
cũng như người dùng cũng như root
, vô ích.
Không có nỗ lực để giữ công việc bị giữ bằng cách sử dụng scontrol
dẫn đến kết quả mong muốn.
Câu hỏi của tôi là như vậy: Tôi nên làm gì để chấm dứt công việc này? Tôi có phải sửa đổi mục cơ sở dữ liệu bằng tay không, hoặc có một giải pháp đơn giản hơn?