Tỷ lệ lỗi CPU / Bộ xử lý trong tính toán


7

Liệu Intel hay AMD có công bố thông số kỹ thuật về tốc độ thất bại trong tính toán có thể được dự kiến ​​trên CPU của họ không? Tôi nghi ngờ nó sẽ phụ thuộc rất nhiều vào độ tuổi và nhiệt độ, nhưng chắc chắn phải có một số loại có sẵn?

Tôi không quan tâm đến các lỗi sản xuất rõ ràng (trong đó rất nhiều lỗi hoặc một cái gì đó). Tôi quan tâm đến các lỗi tự phát do hiện tượng vật lý không liên quan đến lỗi thiết kế. Cho dù lỗi bắt nguồn từ CPU hoặc một số chip khác trên hệ thống cũng là điều đáng quan tâm (ví dụ: lỗi điện áp tạm thời đối với bộ xử lý cũng sẽ dẫn đến lỗi).

Tôi tò mò, nhưng tìm kiếm trên mạng của tôi không mang lại những gì tôi muốn. Tôi chỉ muốn có được những ý tưởng sơ bộ về nó Tôi đã để chương trình của mình chạy trong X giờ có bao nhiêu lỗi tự phát mà tôi có thể gặp phải.



Tôi nghĩ nhiều khả năng bạn sẽ có một chút lộn xộn trong các mô-đun bộ nhớ hệ thống từ các lần truy cập hạt. Ngay cả khi bạn có thể tìm thấy tỷ lệ lỗi CPU chắc chắn vẫn còn nhiều điều cần xem xét. Hầu hết các phần cứng máy chủ thương mại sử dụng bộ nhớ ECC, nhưng tôi chưa nghe nói nhiều về bên ngoài hàng không vũ trụ có tính toán dự phòng. Dự phòng CPU trong trường hợp thất bại, chắc chắn ... nhưng không thực sự kiểm tra tính toán dự phòng.
darron

1
Vâng, từ tất cả các tài liệu tôi tìm thấy bây giờ có vẻ như bộ nhớ là vấn đề lớn nhất. Mặc dù các cân nhắc thiết kế từ AMD cho thấy họ cũng coi đó là một vấn đề trong CPU của họ.
edA-qa mort-ora-y

Câu trả lời:


3

Tìm kiếm "hạt alpha". Đó là hiện tượng vật lý chính có liên quan.

Nhưng không, họ không công bố những con số như vậy.


Cảm ơn, điều đó mang lại loại thông tin tôi đang tìm kiếm. Vì vậy, các lỗi tôi muốn nói là "Lỗi mềm" hay "Lỗi bán dẫn thoáng qua"?
edA-qa mort-ora-y

Tôi đã phát hiện ra rằng mặc dù họ không xuất bản nhưng họ (ít nhất là AMD) có hướng dẫn và tỷ lệ mục tiêu mà họ đạt được. Một tài liệu thực sự đã đưa ra một số tỷ lệ là tốt (mặc dù không chính thức).
edA-qa mort-ora-y

1
Làm thế nào để một hạt alpha xâm nhập vào CPU, xem xét rằng nó không thể đi qua hơn một vài micron của bất kỳ chất rắn nào? Có lẽ bạn có nghĩa là các tia vũ trụ, thường là các proton? Hay bạn có nghĩa là có một số chất gây ô nhiễm phóng xạ trong chính IC?
Oleksandr R.

4

Một số thứ có mặt. cpuidvới eax=01Htrả về Kiến trúc kiểm tra máy MCATHER trong EDX 14-bit:

Machine Check Architecture. The Machine Check Architecture, which
provides a compatible mechanism for error reporting in P6 family,
Pentium 4, Intel Xeon processors, and future processors, is
supported. The MCG_CAP MSR contains feature bits describing how
many banks of error reporting MSRs are supported.

Kiểm tra khối lượng tham chiếu Intel 3B chương 15 KIẾN TRÚC KIỂM TRA MÁY :

The Pentium 4, Intel Xeon, Intel Atom, and P6 family processors
implement a machine-check architecture that provides a mechanism
for detecting and reporting hardware (machine) errors, such as:
system bus errors, ECC errors, parity errors, cache errors, and
TLB errors.

CPU Intel 64 có các kiểm tra bổ sung, xem chương 15.6, ví dụ: có:

  • Lỗi chẵn lẻ trong ROM microcode nội bộ
  • FRC (kiểm tra dự phòng chức năng) lỗi master / Slave
  • Lỗi chẵn lẻ nội bộ.

Xem thêm:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.