Chấm dứt một công việc zombie SLURM


0

Tôi đã gặp phải vấn đề sau trong lần tắt máy đầu tiên của cụm phòng ban Tôi chịu trách nhiệm về. Hệ thống đang chạy SLURM 17.11 và sử dụng MariaDB / SQL để lưu trữ dữ liệu kế toán.

Để thực hiện nâng cấp bộ nhớ, tôi đã phải tắt điều khiển & amp; máy chủ cơ sở dữ liệu của cụm, trong đó đang sử dụng SLURM làm lịch trình. Sau khi khởi động lại, daemon điều khiển đã từ chối khởi động vì rõ ràng trạng thái lưu tệp trong /var/spool không có quyền chính xác nữa. Vì vậy, tôi đã tạo một thư mục chuyên dụng /var/spool/slurm_state cho các tập tin trạng thái bùn và thay đổi quyền sở hữu thành slurm:slurm. Sau khi sửa đổi sulrm.conf để thiết lập sự phù hợp StateSaveLocation daemon kiểm soát bắt đầu và tôi có thể gửi công việc kiểm tra.

Tôi đã không, tuy nhiên, sao chép tập tin nhà nước đến vị trí mới. Do đó, các công việc mới bắt đầu lại tại JobID 1. Sau khi nhận ra rằng tôi nhanh chóng chấm dứt slurmctld và thay đổi StateSaveLocation Quay lại /var/spool (với nhóm thích hợp và thay đổi quyền).

Bây giờ công việc kiểm tra đã được chạy khi trình nền điều khiển đã bị tắt bị kẹt trong cơ sở dữ liệu với trạng thái được đặt thành RUNNING systemverwalter 2 240 9-21:40:55 100.0 RUNNING allgather_latency_240_mpich chỉ tích lũy thời gian chạy cho tài khoản.

Tôi đã cố gắng chấm dứt công việc thông qua scancel cũng như người dùng cũng như root, vô ích. Không có nỗ lực để giữ công việc bị giữ bằng cách sử dụng scontrol dẫn đến kết quả mong muốn.

Câu hỏi của tôi là như vậy: Tôi nên làm gì để chấm dứt công việc này? Tôi có phải sửa đổi mục cơ sở dữ liệu bằng tay không, hoặc có một giải pháp đơn giản hơn?

Câu trả lời:


0

Được. Tôi đã tìm thấy một giải pháp khá nhỏ cho vấn đề này, mặc dù tôi không nghĩ đó là một giải pháp mà sẽ luôn luôn làm việc

Để loại bỏ quá trình zombie như vậy tiến hành như sau:

  1. Bắt đầu trình quản lý tài khoản SLURM thông qua sacctmgr như một người dùng với một Operator tài khoản (hoặc root ).
  2. Tìm kiếm việc làm chạy trốn bằng cách ban hành list runawayjobs bên trong sacctmgr lời nhắc.
  3. Nếu hệ thống nhận ra một hoặc nhiều công việc không có ngày kết thúc, tức là các công việc mồ côi (bỏ trốn) nó sẽ truy vấn xem bạn có muốn sửa nó không. Xác nhận với Y.

Các bước này đã giải quyết vấn đề của tôi sau khi có công việc bỏ trốn trong sacct báo cáo trong 9 ngày.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.