Tôi có một máy chủ Ubuntu nhỏ đang chạy ở nhà, với 2 ổ cứng. Có hai cuộc tấn công phần mềm (raid1) trên các đĩa, được quản lý bởi mdadm, mà tôi tin là không liên quan, nhưng dù sao cũng đề cập đến nó.
Cả hai ổ đĩa cứng này đều là Western Digital và đã được sử dụng khoảng 2 năm, khi một trong số chúng bắt đầu tạo ra tiếng ồn và chết. Tôi hình dung rằng có lẽ nó tự nhiên sau 2 năm, vì vậy tôi đã mua một cái mới và gắn lại các mảng đột kích. Sau khoảng một tháng, ổ đĩa kia cũng chết.
Tôi không nghi ngờ gì, vì cả hai ổ đĩa đã được mua cùng một lúc, không có gì đáng ngạc nhiên khi thấy cả hai gần nhau, vì vậy tôi đã mua một ổ khác.
Cho đến nay, 2 ổ đĩa cũ đã thất bại và 2 ổ đĩa hoàn toàn mới trong hệ thống. Sau một tháng, một trong những ổ đĩa mới đã chết. Đây là khi nó bắt đầu nghi ngờ. Vì PC được ghép lại từ một số bộ phận thực sự cũ (nghĩ AthlonXP), tôi nhận ra rằng có thể bộ điều khiển SATA của bo mạch chủ là thủ phạm. Tất nhiên bạn không thể chuyển đổi các bộ phận dễ dàng trong một PC cũ như thế này, vì vậy tôi đã mua toàn bộ hệ thống, MB mới, CPU mới, RAM mới. Mất lại ổ đĩa, vì nó đã được bảo hành và đã được thay thế.
Vì vậy, có tới 2 ổ đĩa bị lỗi từ những cái cũ và 1 ổ đĩa bị lỗi từ những cái mới. Không có vấn đề, trong 1 tháng. Sau đó, các lỗi đã xuất hiện trở lại trong / var / log / message và mdadm đã báo cáo lỗi mảng đột kích. Tôi bắt đầu xé tóc ra. Mọi thứ đều mới trong hệ thống, cho đến ổ cứng hoàn toàn mới thứ ba, đơn giản là tất cả các ổ đĩa mới mà tôi mua đều bị lỗi.
Chúng ta hãy xem những gì vẫn còn phổ biến ... các dây cáp. Được rồi, bắn lâu, hãy thay thế cáp SATA. Quay lại, mỉm cười với anh chàng ở quầy và nói rằng tôi thật không may. Anh thay ổ cứng. Tôi về nhà, một tháng trôi qua và một lần ổ cứng bị hỏng. Tôi không nói đùa.
Hai trong số các ổ cứng hoàn toàn mới đã thất bại. Có lẽ đó là một lỗi trong hệ điều hành. Hãy xem công cụ kiểm tra của nhà sản xuất nói gì. Tải về công cụ kiểm tra, ghi nó vào đĩa CD, khởi động lại, để lại kiểm tra ổ cứng qua đêm. Kiểm tra nói rằng ổ đĩa bị lỗi, và tôi nên sao lưu mọi thứ, nếu tôi vẫn có thể. Tôi không biết chuyện gì đang xảy ra, nhưng nó không giống như một vấn đề phần mềm, một cái gì đó chắc chắn đang phá hủy các ổ đĩa cứng.
Tôi nên đề cập đến bây giờ, rằng toàn bộ hệ thống đang ở trong một hộp đựng giày. Vì có vô số thứ "xây dựng trường hợp ikea của riêng bạn", tôi nghĩ rằng không nên có bất kỳ vấn đề gì khi ném đồ vào hộp và nhét nó đi đâu đó. Chiếc hộp được thông gió tốt, nhưng tôi nghĩ rằng có lẽ các ổ đĩa đã quá nóng. Không có câu trả lời có thể khác cho điều này. Vì vậy, tôi lấy lại ổ cứng và thay thế nó (lần thứ 3) và mua bộ làm mát ổ cứng.
Và bây giờ, tôi đã nghe thấy âm thanh của sự diệt vong. nhấp vào nhấp vào whizzzzzzzzz . SSH vào hộp:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
đầu ra dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Tóm tắt lại
- Không có khả năng quá nóng
- 6 ổ đĩa đã thất bại, 4 trong số đó là thương hiệu mới. Bây giờ tôi không chắc chắn rằng hai bản gốc đã bị lỗi, hoặc chịu đựng điều tương tự như những cái mới.
- Không có gì phổ biến trong hệ thống, ngoài HĐH là Ubuntu Karmic bây giờ (bắt đầu với Jasyy). MB mới, CPU mới, RAM mới, cáp SATA mới.
- Không, các lỗ nhỏ trên ổ cứng không được che
Tôi đang khóc. Có thật không. Bây giờ tôi không có mặt để quay lại cửa hàng, 4 ổ không thể bị hỏng dưới 4 tháng.
Một vài ý tưởng mà tôi đã suy nghĩ: Có thể là tôi đã làm hỏng thứ gì đó khi phân vùng và đồng bộ lại các ổ đĩa? Nó có thể tệ đến mức nó phá hỏng ổ đĩa không? (vì công cụ do nhà cung cấp cung cấp nói rằng ổ đĩa bị hỏng) Tôi thực hiện phân vùng bằng fdisk và sử dụng cùng kích thước khối cho các phân vùng raid1 (Tôi kiểm tra kích thước khối chính xác bằng fdisk -lu)
Có thể là nhân Linux hoặc mdadm, hoặc một cái gì đó không tương thích với nhãn hiệu ổ đĩa cứng chính xác này và đánh bại chúng?
Có thể đó là hộp đựng giày? Hãy thử đặt nó ở một nơi khác? Bây giờ nó đang ở dưới một cái kệ, vì vậy độ ẩm cũng không phải là vấn đề. Có thể một vỏ máy tính bình thường sẽ giải quyết vấn đề của tôi (tôi sẽ tự bắn mình)? Tôi sẽ có được một hình ảnh vào ngày mai.
Có phải tôi chỉ đơn giản là bị nguyền rủa?
Bất kỳ trợ giúp hoặc đầu cơ được đánh giá rất cao.
Chỉnh sửa : Dải nguồn được bảo vệ chống quá áp.
Edit2 : Tôi đã di chuyển trong khoảng 4 tháng này, vì vậy khả năng nguyên nhân là điện "bẩn" ở cả hai nơi, là rất thấp.
Chỉnh sửa 3 : Tôi đã kiểm tra các điện áp trong BIOS (không thể mượn đồng hồ vạn năng) và tất cả chúng đều có vẻ chính xác, sự khác biệt lớn nhất là ở 12V, vì nó cung cấp 11.3. Tôi có nên lo lắng về điều đó?
Edit4 : Tôi đặt PSU máy tính để bàn của tôi vào máy chủ. BIOS đã báo cáo kết quả đọc điện áp chính xác hơn nhiều, và cũng đã xây dựng lại thành công mảng raid1, mất khoảng 3-4 giờ, vì vậy tôi cảm thấy hơi tích cực. Sẽ nhận được một PSU mới vào ngày mai để kiểm tra điều đó. Ngoài ra, đính kèm hình ảnh về hộp: (bỏ qua ổ đĩa thứ 3)