Làm cách nào để định cấu hình UPS để khởi động lại máy chủ theo đúng trình tự?


12

Ở đây chúng tôi có một số máy chủ và hầu hết mỗi máy chủ đều có một UPS chuyên dụng. Có sự phụ thuộc giữa chúng để chúng phải được bật theo đúng trình tự. Cuối cùng, chúng tôi đang gặp vấn đề nghiêm trọng với nguồn điện, vì vậy các máy chủ bị tắt và sau đó khởi động lại theo thứ tự ngẫu nhiên khi nguồn được phục hồi. Sẽ không có vấn đề gì nếu các máy chủ bị tắt trong thời gian mất điện, điều quan trọng là chúng hoạt động chính xác mà không cần bất kỳ sự can thiệp nào của con người một khi nguồn điện được phục hồi.

UPS của chúng tôi khá rẻ và thông số cấu hình duy nhất hữu ích cho mục tiêu của tôi là power the load xx seconds after power is restored. Về lý thuyết, đặt độ trễ đúng cho mỗi UPS Tôi có thể sửa thứ tự khởi động lại máy chủ nhưng tôi không tin tưởng rằng UPS sẽ hoạt động như mong đợi.

Đó có phải là con đường đúng đắn?
Do UPS cấp cao cung cấp các tùy chọn khác để khắc phục trình tự khởi động lại?
Một lưu ý cuối cùng: Ups của tôi nằm trong khoảng 1000 - 2200 VA


1
Đây là một trong những điều tốt đẹp được cung cấp bởi systemd- khả năng xác định các phụ thuộc phù hợp trong quá trình khởi động. Đợi cho đến khi dịch vụ X khả dụng trước khi thử bắt đầu dịch vụ Y.
MSalters

1
@MSalters Quản lý phụ thuộc hệ thống AFAIK chỉ hoạt động khi các đơn vị được xử lý theo cùng một systemdthể hiện và không cho các dịch vụ chạy trên các máy chủ hoàn toàn khác nhau ...
HBruijn

1
@HBruijn: Sắp xếp, gắn kết mạng chẳng hạn hoạt động trên các máy chủ. Điều đó có nghĩa là, nếu server1 gắn kết một hệ thống tập tin được lưu trữ bởi server2, thì các dịch vụ của Serv1 phụ thuộc vào mount sẽ tạm dừng cho đến khi server2 bắt đầu các dịch vụ đó. Và IIRC bạn cũng có thể có máy chủ chờ DHCP (đừng hỏi tôi tại sao máy chủ sử dụng DHCP, nhưng nó đã được đề cập trong câu trả lời)
MSalters

Câu trả lời:


25

Câu trả lời tiêu chuẩn cho điều này là "hoàn toàn không". Sửa phần mềm để xử lý khởi động lại theo thứ tự ngẫu nhiên. Nếu bạn thực sự cần MỘT SỐ máy chủ để bắt đầu trước (ví dụ: Active Directory) hãy đặt chúng trên USV có khả năng tồn tại RẤT lâu hơn. Một máy chủ dựa trên nguyên tử năng lượng thấp đủ tốt như bộ điều khiển Active Directory và sẽ tồn tại một ngày trên một USV nhỏ.

Do UPS cấp cao cung cấp các tùy chọn khác để khắc phục trình tự khởi động lại?

Không. Tôi muốn nói rằng người ta thường cho rằng các lập trình viên có đủ năng lực để giải quyết vấn đề một cách đúng đắn.

Những gì bạn CÓ THỂ làm là:

  • Có máy chủ bắt đầu "ngẫu nhiên". Ngoại trừ DHCP / Active Directory, không có gì thực sự đòi hỏi một đơn hàng không thể sửa được.
  • Có máy chủ điều khiển sau một thời gian (5 phút) khởi động các dịch vụ trên các máy khác nhau theo đúng thứ tự.

Tôi muốn nói rằng loại thiết lập này là phổ biến hơn rất nhiều. Tôi sẽ gọi bất kỳ phần mềm nào mà máy chủ YÊU CẦU bắt đầu theo một thứ tự cụ thể (bên ngoài cơ sở hạ tầng thuần túy) là bị hỏng và không phù hợp cho doanh nghiệp.

Cũng như lưu ý: thiết lập riêng của chúng tôi là USV 20kva chi phí thấp (chi phí thấp vì chúng tôi đã sử dụng) cho các máy chủ, với 2000VA USV dành cho máy đóng vai trò là "root" của mạng (và máy dự phòng). Slave có nghĩa là USV đứng sau cái lớn - vì vậy nó chỉ chuyển sang pin khi cái lớn (kéo dài từ nửa giờ đến 8 giờ tùy thuộc vào mức độ mạng lưới máy tính của chúng tôi đang trực tuyến) sẽ ngừng hoạt động.


2
Tôi nghĩ rằng điều này đôi khi nói dễ hơn làm (AD, như bạn nói, là một ví dụ rõ ràng) nhưng tôi đồng ý. Giải pháp chính xác là làm việc để loại bỏ sự phụ thuộc cho những thứ như thứ tự bắt đầu của máy chủ hoặc dịch vụ. Nếu không có gì khác, chẳng hạn, trên ứng dụng web, có thể viết mã có nội dung "Nếu tôi không thể kết nối với back-end của mình, 'ngủ' và thử lại sau thay vì gặp sự cố khủng khiếp".
Rob Moir

Vấn đề với AD thậm chí không phải là AD - chủ yếu là DHCP4 DHCP không được chuẩn bị cho các máy tính đang trực tuyến trước máy chủ dhcp. Ipv6 xử lý việc này;)
TomTom

Đúng. IPv4 là một nỗi đau ... và tôi vẫn khiến mọi người ở đây hỏi tôi tại sao chúng ta cần phải bận tâm với "rác IPv6 mới lạ này".
Rob Moir

1
"Người ta thường cho rằng các lập trình viên có đủ năng lực để giải quyết vấn đề" - bạn không được lập trình nhiều! Không, trong tất cả sự nghiêm túc, có rất nhiều lý do mà một hệ thống có thể cần được đưa ra theo một thứ tự cụ thể. Có, phần mềm sẽ "thất bại một cách duyên dáng" và thử lại các kết nối bị hỏng, nhưng không phải lúc nào cũng có thể. Từ những gì tôi nhớ lại, một số PDU tốt đẹp có khả năng bắt đầu / dừng các cổng riêng lẻ, vì vậy có lẽ điều gì đó có thể được thực hiện ở đó.
SnakeDoc

1
Tôi đã phải tìm kiếm "USV" và tìm thấy "phương tiện không người lái". Tôi biết điều này là sai, nhưng tôi muốn nó đúng.
Braiam

14

Các đơn vị phân phối điện được quản lý (chứ không phải UPS) thường hỗ trợ độ trễ tùy chỉnh trong việc cho phép các ổ cắm riêng lẻ sau khi nguồn được nối lại.

Thông thường, đó là để ngăn chặn các bộ ngắt mạch khi một tủ chứa đầy các hệ thống bật lên cùng một lúc ngay sau khi nguồn được phục hồi, nhưng cũng có thể được sử dụng để duy trì thứ tự khởi động của các phụ thuộc hệ thống của bạn.


Vâng, đúng rồi. Đây là chức năng nâng cao và không giả định USV thực sự được kết nối với các máy chủ - nhưng nó cung cấp năng lượng cho các giá đỡ sau đó sử dụng PDU để xử lý các chi tiết.
TomTom

6

Tôi đã có vấn đề chính xác này. Sự khác biệt duy nhất là chúng tôi đã đầu tư vào các bộ nguồn APC gắn trên giá đỡ chắc chắn (ví dụ APC SmartUPS 3000 ). Với phần mềm tắt mạng APC PowerChute (phần mềm Tắt mạng PowerChute) , tôi có thể tắt và đưa lên các máy chủ theo một thứ tự cụ thể. Một tính năng tiện dụng khác của phần mềm là thiết lập các máy chủ tắt vào phút cuối, tức là tính toán lượng pin mà các đơn vị APC còn lại và tắt máy chủ chỉ đủ thời gian để chúng tắt đúng cách thay vì tắt nguồn.

Phần mềm này ... không thân thiện với người dùng nhưng không có gì khó khăn nếu bạn dành chút thời gian để tìm ra nó. Nếu bạn quan tâm đến việc đầu tư nhiều hơn vào cơ sở hạ tầng của mình, đây chắc chắn là con đường nên đi.


1
Chúng tôi cũng có Apc Smart Ups, một số trong số chúng tương đối cũ và có lẽ có pin yếu. Rất khó để thực hiện một số thử nghiệm về chúng vì chúng đang được sản xuất. Bên cạnh đó chúng tôi không có bất kỳ tải kỳ dị nào, ý tôi là một tải có thể giảm điện đột ngột mà không gặp vấn đề gì. Điều đó nói rằng mỗi khi tôi mô phỏng sự cố mất điện, UPS hoạt động khác đi như mong đợi, có thể là do cấu hình sai nhưng cảm giác của tôi là những UPS đó không đáng tin cậy lắm.
Filippo

@Filippo chắc chắn là YMMV nhưng tôi có sự kết hợp giữa SmartUPS 3000 và 3000XLM trên nhiều trang web bằng phần mềm PowerChute trong 3 năm và sau khi tìm ra phần mềm, chắc chắn có một đường cong học tập và cần một số thử nghiệm, nó khá vững chắc.
Winski Tech

2

Có vẻ như các đơn vị UPS có chi phí thấp và không có khả năng được định cấu hình cho thời gian chờ đầu ra cụ thể sau khi nguồn được phục hồi (một số đơn vị cao cấp hơn). Để có được chức năng tương tự, bạn cần chọn một máy chủ cụ thể để luôn bật nguồn ngay lập tức (có thể bất kỳ hệ thống nào được phép khởi động bất cứ lúc nào) và để tất cả các máy chủ khác ở trạng thái tắt nguồn (được định cấu hình trong bios để trở lại nguồn tắt khi AC được áp dụng và để tôn vinh gói ma thuật Wake On Lan bật nguồn khi được yêu cầu làm như vậy). Sau đó, trên máy chủ chính khởi động, hãy chạy tập lệnh / tiện ích để truyền thời gian truyền gói ma thuật WOL đến từng máy chủ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.