Trong tuần vừa qua, cỗ máy mini ITX do tôi tự chế tạo để phục vụ thư và cổ phiếu Samba đã bị hoảng loạn hai lần với những thứ liên quan đến hệ thống tập tin. Đêm qua tôi nhận thấy lỗi toàn vẹn khi phát trực tuyến phim đến ứng dụng khách hàng đầu của mình (tạo tác video), vì vậy tôi bắt đầu chọc ngoáy.
Cả ổ cứng bên trong và ổ cứng ngoài đều sử dụng RAID phần mềm linux và trên cả hai gương, nếu tôi thực hiện md5sum trên một tệp khá lớn như video và thực hiện lặp đi lặp lại, tôi sẽ nhận được một tổng kiểm tra khác nhau mỗi lần (tôi nên lưu ý rằng một cái là ext4, cái kia là JFS). Tôi đã khởi động một thanh USB vào chế độ phục hồi, điều tương tự cũng xảy ra. Tôi đã không thử đọc gương bên ngoài trên một máy tính khác, nhưng tôi đã gắn một trong các đĩa cấu thành và nó có vẻ ổn, ít nhất là nó đã cho md5sums phù hợp ở đó.
Vì vậy, hệ thống tập tin đã bị loại trừ (nó xảy ra trên cả ext4 và JFS), các ổ đĩa cứng có thể bị loại bỏ (đó sẽ là một sự trùng hợp đến khó tin), các bộ điều khiển SATA có thể đã thấy khi nó xảy ra trên hai bộ điều khiển độc lập hoàn toàn, một mô-đun hạt nhân bị hỏng hoặc một cái gì đó được nhìn thấy khi nó đang làm điều đó ngay cả khi khởi động ra khỏi đĩa cứu hộ.
Thực tế điều này xảy ra với hai bộ ổ đĩa riêng biệt, được điều khiển bởi hai bộ điều khiển SATA riêng biệt, chạy hai hệ thống tập tin khác nhau và hành vi được bảo toàn khi khởi động hai hạt nhân khác nhau khiến tôi nghĩ rằng tùy chọn hợp lý duy nhất là có lỗi gì đó khủng khiếp với bo mạch chủ. Bo mạch chủ này đã là một sự thay thế RMA từ một công ty mà tôi không đặc biệt tin tưởng (Zotac), vì vậy nó sẽ ít gây ngạc nhiên hơn bình thường.
Nhân tiện, đây là Ubuntu Server 10.04, 64-bit, trên bo mạch chủ Zotac IONITX-C (tôi nghĩ) với một Atom N230.
Có ai có bất kỳ ý tưởng, chẩn đoán nào khác tôi nên thực hiện, vv?
EDIT: Hai điều tôi quên đề cập: khi tôi khởi động phím USB, tôi đã chạy fsck trên cả hai thiết bị md khá nhiều.
Đây là những gì hoảng loạn trông như:
Tôi đã thử tìm kiếm Google một vài trong số này mà không có nhiều thành công, nhưng tôi nghĩ rằng nhiều khả năng phần cứng sẽ bị đổ lỗi; Tôi chỉ không biết được cụ thể mảnh của phần cứng.
EDIT 2: Chỉ cần chạy memtest86, và không có bài kiểm tra nào được thông qua. 2 byte đáng kể nhất của mẫu thử nghiệm dường như luôn luôn đọc sai. Vẫn không chắc chắn đó là RAM hay chipset và tôi không có thêm một thanh RAM nào để kiểm tra.