Đối với một dự án, chúng tôi có 50 máy chủ được trang bị (nói chung) phần cứng giống nhau. Vấn đề chúng tôi có ở đây là rất nghiêm trọng và xảy ra trên tất cả các máy. Mặc dù có rất nhiều nỗ lực và liên hệ với các nhà sản xuất và các nhà phát triển phần mềm, mọi người đều chỉ vào nhau và thậm chí từ chối cung cấp cho tôi manh mối về những gì đang diễn ra.
Đầu tiên hãy để tôi mô tả các thiết lập. Đây là phần cứng 'máy chủ'. Đối với trải nghiệm đầu tiên của tôi, serverTHER là sự thất vọng lớn nhất trong cuộc đời tôi.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (được nhúng trên bo mạch chủ)
- Trường hợp 1U được thiết kế tùy chỉnh hoặc trường hợp ban đầu SuperMicro
- PSU máy chủ 480 watt hoặc PSU gốc SuperMicro 200 watt
- Ổ cứng SSD Samsung Evo 850 500 GB
- 32 GB DDR4-2133 ECC hoặc NON-ECC (nhưng không được trộn trong cùng một máy chủ)
- GPU GT330 4GB DDR3
- GPU được gắn với thẻ riser PCIe (không phải ruy băng), không tên từ Trung Quốc hoặc SuperMicro gốc
Chạy trên hệ thống - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - Các nhiệm vụ chuyên sâu về GPU chạy của VM - Hệ thống này là chứng khoán, hoàn toàn không có / ép xung
Triệu chứng - BSOD ngẫu nhiên 0x09c (còn gọi là Machine_Check_Exception): đôi khi hệ thống chạy trong một tuần không có vấn đề gì, đôi khi gặp sự cố chỉ sau 10 phút, nhưng hầu hết thời gian nó chạy trong vài giờ.
Đã thử / kiểm tra:
- BIOS được cập nhật lên phiên bản mới nhất (bây giờ tôi nghĩ rằng điều này đã cải thiện thời gian để hệ thống ổn định, nhưng điều đó có thể là ngẫu nhiên).
- Windows cập nhật lên phiên bản mới nhất.
- VMWare cập nhật lên phiên bản mới nhất.
- Hoán đổi tất cả các thành phần và thử mọi tùy chọn khác nhau, thậm chí đã thử một ổ SSD ATX PSU và M.2 trên máy tính để bàn.
- Đã cài đặt tất cả các hệ thống từ đầu với Ubuntu. Tôi không quen thuộc với Linux và chưa bao giờ thấy Linux BSOD và tôi vẫn không biết vì các hệ thống máy chủ không có đầu và tôi đã thử điều này ở DC. KẾT QUẢ: hệ thống sẽ bị treo và sau khi khởi động lại Linux đã báo cáo sự cố XORG (liên quan đến GPU).
- Thay đổi cài đặt GPU trong BIOS thành 'Trên 4G', phần còn lại của BIOS là mặc định của nhà sản xuất.
Cũng thông tin:
- Các hệ thống được đặt trong một trung tâm dữ liệu. Nhiệt độ, không khí, năng lượng và mạng là tối ưu.
- Nhiệt độ thấp hơn mức tối đa của nhà máy
- Chúng tôi có cùng một thiết lập phần mềm chạy trên máy tính để bàn (với phần cứng máy tính để bàn). Các hệ thống này có thể chạy tốt với 1 trong số 100 PC của chúng tôi bị sập mỗi tháng.
- Tôi đã liên hệ với VMWare, nói rằng đây là sự cố phần cứng
- Tôi đã liên lạc với SuperMicro, họ nói không có gì thực sự ngoại trừ một số thứ và đã thử và đây cũng có thể là một vấn đề phần mềm.
Chúng tôi đang tuyệt vọng ở đây. Ứng dụng chúng tôi chạy may mắn là loại dư thừa. Nếu một máy chủ và VM bị ngừng hoạt động, đó không phải là vấn đề như vậy, các máy chủ khác sẽ tải trong vòng 5 phút, nhưng với tốc độ này, tôi bắt buộc phải trực tuyến cả ngày để khởi động lại máy chủ.
Tôi có một kiến thức phần cứng lớn nhưng điều này đã vượt qua nó, tôi đã tìm kiếm nó cả ngày trong hơn một tháng để thử tất cả các loại khác nhau. Việc các bo mạch chủ này được sử dụng với các nhà cung cấp dịch vụ lưu trữ trên quy mô lớn khiến tôi nghi ngờ rằng bản thân bo mạch là ổn. Đây chắc chắn không phải là vấn đề phần cứng cụ thể đối với RMA vì tất cả 50 bảng đều có cùng một triệu chứng. Điều duy nhất khác biệt với chúng tôi là GPU. Điều này kết hợp với thử nghiệm Linux khiến tôi nghi ngờ rằng đây chắc chắn là thứ gì đó trên làn đường PCIe. Bản thân GPU ổn định trên máy tính để bàn của mobo. Mặc dù có dung lượng bộ nhớ lớn nhưng đây là một GPU nhỏ không tiêu thụ nhiều năng lượng. Tôi sẽ nghi ngờ các thẻ riser Trung Quốc, nhưng sau đó một lần nữa chúng tôi cũng sử dụng các riser được chứng nhận SuperMicro và chúng không cho thấy sự cải thiện nào cả.
Tôi rất tuyệt vọng để tìm một giải pháp ở đây. Điều này sẽ bắt đầu với việc xác định nguyên nhân chính xác. Chúng tôi sẵn sàng trả một khoản tiền thưởng tốt cho một chuyên gia có thể phân tích một số bãi và cung cấp cho chúng tôi nhiều chi tiết hơn (hoặc thậm chí tốt hơn, một giải pháp).
Trân trọng,
Simon