Tôi đã xem xét MTTF, MTBF, MTBR và MTBF để tìm ra các máy chủ HP Gen9 đang chạy trong môi trường sản xuất của chúng tôi.
Root câu hỏi của tôi, nên lo lắng hay không.
Tôi dường như không thể có được bất kỳ dữ liệu tốt vì mỗi máy chủ có một phần cứng.
Tại công ty cuối cùng của chúng tôi, chúng tôi đã chạy khoảng 2000 máy chủ dell r210 r410 r710 Tôi sẽ nói trung bình chúng tôi có khoảng 5 máy chủ mỗi ngày có một số lỗi. Vì vậy, khoảng 0,25% máy chủ đã gặp khó khăn và cần phải thay thế một phần trước khi có thể được sử dụng lại.
Công ty cuối cùng của tôi mọi thứ đều được thiết lập trong một cặp HA, cơ sở hạ tầng N + 2 nên không ảnh hưởng đến sản xuất. Chúng tôi đã có thể thay thế các máy chủ và tiếp tục đi
Tại văn phòng hiện tại của tôi, chúng tôi điều hành 9 máy chủ, (Hyper-V của HP Gen9, 56 VM), chúng tôi không có nhiều bộ phận thay thế trong tay, ngoài trung tâm dữ liệu không được quản lý, vì vậy nếu có gì đó chúng tôi phải lái xe khoảng 45 phút để thay thế bất cứ điều gì
CTO và quản lý CNTT của tôi dường như lo lắng, họ đã có khoảng 2,5 ngày ngừng hoạt động vào năm ngoái, tôi đã tăng cường chúng tôi cần phân cụm các máy chủ nhưng họ không thấy cần thiết.
Có sai hay đúng ở đây? Không chắc sẽ làm gì.
Tôi biết đó không phải trách nhiệm của mình nếu có gì đó xảy ra trên CTO. Đây là một công ty rất nhỏ chỉ có CTO, Giám đốc CNTT, bản thân tôi (dev ops) và 1 anh chàng trợ giúp.
Hơn tất cả kinh nghiệm trong việc điều hành một môi trường sản xuất, rất hạn chế, cách thiết lập rất nhiều thứ tôi sẽ gọi là cấp cơ sở, cả CTO và Quản lý CNTT của tôi đều không biết nhiều về việc phân cụm trước khi tôi đến đó. Họ đang ở giữa một dự án để thiết lập DR mà không cần HA, điều mà tôi đã chống lại nhưng bị mất.