Một máy chủ không quan trọng là gì? Một cái có thể thất bại?
RAM ECC là cơ bản khi độ tin cậy của bộ nhớ là cơ bản.
Hai thứ phát triển cùng với sự tăng trưởng của kích thước bộ nhớ:
- sự phụ thuộc của phần mềm vào bộ nhớ, đặc biệt. phần mềm máy chủ (lấy ví dụ: bộ nhớ đệm)
- xác suất xảy ra lỗi bộ nhớ (p = num_bits * p_bit_failure)
Bài thuyết trình về intel này trên ECC báo cáo những sự thật sau:
- Tỷ lệ lỗi bộ nhớ trung bình cho máy chủ có bộ nhớ 4GB chạy 24x7 là 150 lần một năm
- ~ 4000 lỗi có thể sửa cho mỗi mô-đun bộ nhớ mỗi năm
- Ép xung và tuổi hệ thống làm tăng đáng kể tỷ lệ thất bại
- Thất bại tái diễn là phổ biến và xảy ra nhanh chóng (97% xảy ra trong vòng 10 ngày kể từ lần thất bại đầu tiên) => hiệu ứng tuyết lở
- Đối với máy chủ ECC có tuổi thọ từ 3 đến 5 năm, khả năng lỗi hệ thống không thể sửa lỗi bộ nhớ nhỏ hơn 0,001%
Một nghiên cứu gần đây của WISC cho thấy ECC rất cần thiết cho các hệ thống ZFS này:
ZFS không có biện pháp phòng ngừa hỏng bộ nhớ: các khối dữ liệu xấu được trả lại cho người dùng hoặc ghi vào đĩa, hoạt động của hệ thống tệp không thành công và nhiều lần toàn bộ hệ thống gặp sự cố.
Điều quan trọng cần lưu ý là các hệ thống tệp khác cũng nhạy cảm với hình thức hỏng dữ liệu này như ZFS.
ECC là thứ giúp bạn tránh khỏi những vấn đề này, khi có thể, và trong những trường hợp tai hại, điều gì cảnh báo bạn về điều này xảy ra trước khi quá muộn.