Hai hệ thống đóng băng: có thể là lỗi bộ điều khiển sata RAID / MB?


1

Tôi có hai hệ thống có cùng độ tuổi với cùng một rắc rối:

Hệ thống đầu tiên:

ASUS P8h67-m-le mẹ r3 phiên bản i7 2600 (3,4ghz)
8gb ram ddr 3 (kênh đôi 2x4gb) RAID 1 qua intel RST với 2 hd 1TB WD Green Coolermaster 600W psu Windows 7 64bits phiên bản chuyên nghiệp (bản quyền gốc). hệ thống được bảo vệ khỏi sự cố tăng điện thông qua 10kva UPS

Triệu chứng:

Hệ thống đã hoạt động tốt trong gần 3 năm nay. Tháng trước RAID đã xuống cấp và được xây dựng lại khi tắt nguồn từ ứng dụng bị treo. Sau đó, xuống cấp và xây dựng lại nhiều lần khi tắt nguồn bằng cách tắt và bật nguồn bình thường. Hai tuần qua, hệ thống bắt đầu hoạt động (đóng băng hoàn toàn, đôi khi con trỏ chuột cũng đóng băng trong khi những con chuột khác vẫn di chuyển). [rõ ràng là nó đang tăng tần suất đóng băng]
Sau đó tôi phải thiết lập lại hệ thống. Mỗi lần nó bắt đầu tái tạo RAID 1 (phải mất bốn giờ để xây dựng lại RAID), và bây giờ nó bị đóng băng khoảng một lần mỗi ngày.

Những điều tôi đã thử nghiệm:

  • Ram mới và PSU mới cho cùng một vấn đề.
  • Rõ ràng không có RAID (loại bỏ 1 hdd) dường như để giải quyết vấn đề.
  • HDD vẫn ổn (được thử nghiệm trong hệ thống khác với kiểm tra căng thẳng, tự kiểm tra ngắn và tự kiểm tra dài). Cũng xem nhật ký thông minh có vẻ OK.
  • Bộ xử lý kiểm tra căng thẳng đã qua.
  • Kiểm tra temps là OK, hệ thống không quá nóng.
  • Di chuyển một hdd sang một hệ thống khác với Intel RST và không thể truy cập nó (Bios thấy ổ đĩa, bộ điều khiển không hiển thị nó, nhưng trình quản lý phần cứng windows hiển thị nó), di chuyển cùng ổ đĩa đó sang hệ thống khác mà không cần RST và CÓ THỂ TRUY CẬP CNTT? ??
  • Chuyển ứng dụng máy chủ sang hệ thống tương tự khác giải quyết vấn đề để nó không phải là vấn đề ứng dụng mà nó phải liên quan đến phần cứng.

Vấn đề: khi hệ thống đóng băng, tôi không nhận được gì từ nhật ký sự kiện Windows. Không treo ứng dụng, không gặp sự cố RAID, không có gì. Nhật ký RST trên Windows không có thông tin chi tiết về việc hdd nào không đồng bộ hóa chỉ là tình trạng xuống cấp (ít nhất là trong hệ thống của tôi).

Điều kỳ lạ tôi nhận thấy: Thêm một ổ cứng gắn trong khác vào hệ thống (bên ngoài RAID để sao lưu) dường như kích hoạt RAID xuống cấp và bắt đầu tái tạo RAID 1.

Tôi đoán MB đang thất bại

Hệ thống thứ hai:

Bộ xử lý I5 không thể thu hồi thông số kỹ thuật bây giờ Asus MB h81m-k RAID thông qua phần mềm Windows 7 64 bit. 8GB ram 2x 1TB HDD Caviar màu xanh

Triệu chứng: Máy chủ chạy tốt trong 2 năm aprox. Một tháng trước: RAID Windows Server không đồng bộ hóa, cố gắng đồng bộ lại không bao giờ kết thúc (bốn ngày chờ đợi)
Ứng dụng máy chủ bắt đầu bị treo (không cần khởi động lại chỉ cần mở lại ứng dụng) hoặc đóng kết nối thiết bị đầu cuối. Di chuyển ứng dụng máy chủ sang hệ thống tương tự khác DID giải quyết vấn đề để nó không phải là vấn đề ứng dụng.

Các xét nghiệm tôi đã tiến hành:

Định dạng một hdd trong systen (định dạng mất hơn một ngày và không bao giờ kết thúc). Vì vậy, tôi loại bỏ hdd (cái không đồng bộ hóa và thử nó trên hệ thống khác). Định dạng kết thúc vào thời gian bình thường. Nhìn thông minh và có vẻ ổn. Đã chuyển hdd đó sang hệ thống và cố gắng đồng bộ lại Soft RAID một lần nữa: không bao giờ kết luận việc đồng bộ hóa lại các ổ đĩa. Thay đổi PSU & RAM không giải quyết được vấn đề Loại bỏ ổ cứng không đồng bộ hóa không giải quyết được vấn đề khiến ứng dụng bị treo.


Những gì cả hai hệ thống có điểm chung:

  • khoảng hai năm sử dụng
  • ổ cứng đọc / ghi
  • ứng dụng máy chủ khác nhau
  • cùng thương hiệu của hdd.
  • HDD có vẻ tốt trên các hệ thống khác.
  • Hệ điều hành giống nhau cả bản sao hợp pháp
  • bộ nhớ và psu không phải là nguyên nhân.
  • Không có dấu hiệu tổn thương thị giác trên MB
  • Không ai chạm vào hệ thống bên trong.

Tôi đoán là bằng cách nào đó, các cổng / bộ điều khiển sata không thể xử lý hoạt động của ổ cứng mạnh và bị suy giảm / hỏng theo thời gian tạo ra các lỗi trông khác nhau trên cả hai hệ thống do bản chất của các loại đột kích khác nhau.

Câu trả lời:


0

Đừng chỉ xây dựng lại cuộc đột kích của bạn nhiều lần! Tìm hiểu tại sao thẻ bị lỗi ổ đĩa và (rất có thể) thay thế ổ đĩa. Bạn có thể sử dụng tiện ích dòng lệnh có tên smartctl để kiểm tra ổ đĩa - nếu có bất kỳ lỗi nào có khoảng hơn 500-1000 lỗi hoặc có một số lỗi tiếp tục gia tăng thì có lẽ đã đến lúc thay thế ổ đĩa.

Nếu bạn phải xây dựng lại một ổ đĩa đột kích sau khi kết nối nó với một thứ khác thì đó là vì thông tin cụ thể về cuộc đột kích đã bị mất một chút (thẻ perc / LSI có thêm dữ liệu này trên ổ đĩa, nhưng tôi chưa bao giờ kích hoạt việc xây dựng lại bằng cách tự gắn ổ đĩa). Cuối cùng, tất cả các loại vấn đề phần cứng có thể gây ra đóng băng hệ thống. Thẻ đột kích xấu có thể gây đóng băng, cũng như các sự cố về điện với ổ cứng của bạn hoặc các sự cố của bộ điều khiển trên ổ cứng của bạn. Đôi khi các sự cố tham nhũng hệ thống tập tin sẽ kích hoạt sự cố kernel, nhưng điều đó sẽ thực sự rõ ràng và rõ ràng nếu đó là nguyên nhân của vấn đề. Một điều kỳ lạ tôi từng thấy là hơi nóng từ ổ bi bị mòn trên ổ cứng đang gây ra vấn đề về nhiệt độ với máy tính (máy tính xách tay dễ bị như vậy) - giống như một ổ cứng bị mòn có thể gây ra vấn đề về nhiệt độ với card màn hình của bạn, nó có thể đóng băng hoàn toàn mọi thứ . Việc kiểm tra các thông điệp kernel ngay trước khi máy của bạn bị đóng băng, / var / log / kern trên Debian / Ubuntu là không hại. Có một nguồn cung cấp năng lượng không đủ mạnh có thể gây ra sự cố. Nói chung, hãy thử vô hiệu hóa phần cứng không cần thiết cho đến khi hệ thống ngừng hoạt động :).


Cảm ơn sự giúp đỡ Ổ đĩa của tôi bị lỗi ở chế độ RAID 1. Nếu tôi loại bỏ ổ đĩa và đặt nó vào các ổ đĩa hệ thống khác hoạt động tốt!. "... có lẽ đã đến lúc thay ổ đĩa." Đã nhìn thông minh trong các ổ đĩa n ° lỗi là không đổi . ** Vấn đề là intel RST không hiển thị ổ đĩa nào bị lỗi trong trình xem sự kiện của hệ điều hành (không có gì ở đây trừ khi tôi gỡ bỏ hệ thống khởi động mà không để lại nhật ký) cũng như khi ROM ROM BOOTS bên ngoài os. Nó chỉ hiển thị trạng thái xuống cấp trên cả hai ổ cứng. ** "... hỏng hệ thống tập tin ..." Quên đề cập đến hệ thống tập tin đã kiểm tra với chkdsk
Ramiro85

Dữ liệu thông minh cho bộ điều khiển đột kích thường không quá hữu ích. Nếu bạn có thể gắn ổ đĩa vào một máy khác một cách an toàn mà không cần thẻ (nếu bạn chưa làm như vậy) thì bạn có thể nhận được thông tin lỗi thông minh thực sự. Đó là lạ, vì vậy thẻ đột kích nói rằng fs bị hỏng và windows nói nó ổn chứ? ummmmmmm / tôi nhún vai
Một số Linux Nerd

Thông thường, nó đánh dấu các ổ đĩa là thất bại vì nó cố ghi vào một khu vực và khu vực đó là xấu hoặc nếu không thì không hoạt động.
Một số Linux Nerd
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.