Các CPU kép có cung cấp dung sai lỗi không?


16

Giả sử tôi đã mua hai chiếc Intel Xeon và cài đặt chúng vào phần cứng lớp máy chủ ... Nếu một CPU bị hỏng thì bộ kia vẫn hoạt động và lấy lại độ chùng, do đó có cung cấp khả năng chịu lỗi không?

Điều này có vẻ không có khả năng lắm, nhưng tôi đoán rằng tôi sẽ hỏi thay vì đưa ra bất kỳ giả định nào.

Câu trả lời:


29

Trong một hệ thống ổ cắm kép bình thường, không, mặc dù có những máy chủ cho phép trao đổi nóng bộ xử lý và RAM. Vì vậy, những thứ này tồn tại, nhưng chúng ở rất, rất cao cấp của thị trường.

Đó thực sự không phải là vấn đề lớn - tất cả mọi thứ trong máy chủ của bạn đều có thể bị lỗi, bộ xử lý nằm ngay cuối danh sách, bên cạnh những chiếc riser nhỏ bằng đồng giữ bo mạch chủ khỏi khung máy.


1
Dán nhiệt được cài đặt kém có thể gây ra quá nhiệt cho CPU trong khi tải cao điểm. Tôi chắc chắn có nhiều trường hợp xảy ra hơn là thất bại đồng thau tự phát.
Oddthinking

8
@Oddthinking Tôi nghĩ bạn đã quá nghiêm túc.
Peter

5
Ngay cả với các CPU có thể tráo đổi nóng, hệ thống vẫn không chịu được sự cố đột ngột của một trong số chúng. Giả sử nhân hệ điều hành hiện đang thực thi trên CPU bị chết, nó không thể tiếp tục thực hiện trên CPU khác. Đối với các CPU có thể hoán đổi nóng, hạt nhân phải tắt CPU một cách duyên dáng trước.
Patrick

4
@Patrik: ừ, đúng rồi. Bạn biết đấy - SAU;) đây là hành vi tiêu chuẩn cho CPU cao cấp - được cấp, đây là máy tính lớn trong đó CPU có giá 5000+ USD. Tuy nhiên, họ sử dụng bộ nhớ giao dịch và giao dịch sẽ được khởi động lại trên CPU khác.
TomTom

5
@TomTom: Tất nhiên, sau đó chúng ta đang nói những thứ như TANDEM đáng kính (và những người kế vị thời hiện đại của nó), không phải là một kiến ​​trúc vanilla x86-64.
Piskvor

9

Nói về phần cứng hàng hóa x86, nếu một hệ thống đang chạy và CPU bị lỗi, mọi thứ sẽ dừng lại bình thường. Tuy nhiên, hệ thống sẽ hoạt động tốt sau khi khởi động lại, mặc dù hơi chậm.

Nhiều CPU chủ yếu ở đó để xử lý song song, không thực sự cho khả năng chịu lỗi. Nhưng thật tuyệt khi có một hệ thống vẫn khởi động thì CPU (hoặc nhiều hơn) sẽ thất bại.

Tôi có thể nói rằng nhiều khả năng CPU của bạn bị lỗi so với Mark Henderson gợi ý, nhưng điều đó vẫn rất khó xảy ra. Theo kinh nghiệm của tôi, hầu hết điều đó xảy ra khi hệ thống thường xuyên quá nóng và tự tắt (điều đó khá dễ dàng trong một phòng máy chủ văn phòng có điều hòa không khí). Các CPU không có xu hướng thích điều đó rất nhiều.

Tất nhiên, nếu bạn có một máy tính lớn của IBM hoặc tương tự, việc hoán đổi CPU (bo mạch) là đủ "dễ dàng".


Hmmm, nhưng ngay cả trong trường hợp khởi động lại cứng: IIRC nếu CPU # 0 không thành công, bạn vẫn bị vặn - không POST, có nghĩa là không khởi động thêm, vì chỉ CPU đầu tiên được sử dụng cho quá trình khởi động sớm.
Piskvor

Tôi không biết nếu đó là trường hợp. Tôi nên kiểm tra nó trên một máy chủ. Tôi nghĩ nó không thành vấn đề và miễn là có 1 CPU thì hệ thống sẽ khởi động tốt.
aseq

5

Nếu một CPU bị lỗi - điều cực kỳ khó xảy ra, theo các câu trả lời khác - về cơ bản, hệ thống không thể làm gì để phục hồi. Tùy thuộc vào cách nó thất bại, nó có thể làm hỏng bộ nhớ theo những cách lạ hoặc phá hủy bảng quy trình, hoặc ai biết những gì khác. Nếu bạn có một hệ thống giám sát hoạt động nào đó giữ các tab trên CPU để đảm bảo rằng nó hoạt động tốt (và có thể nói, khôi phục mọi thay đổi do CPU thực hiện trong thời gian chết), đó cũng sẽ là một hệ thống khác điều đó có thể thất bại và việc xác định lỗi phần mềm theo lập trình là khá khó khăn (về cơ bản cách duy nhất bạn có thể thực hiện là bằng cách sử dụng một CPU khác làm cùng một thứ chính xác cùng một lúc và so sánh kết quả - sau đó sẽ làm chậm mọi thứ xuống như vậy đó '

Điều đó nói rằng, hiếm khi xảy ra lỗi CPU, việc tăng số lượng CPU trong một hệ thống thực sự sẽ khiến tỷ lệ thất bại của bạn tăng lên, vì bây giờ bạn có gấp đôi số thứ có thể bị lỗi. Bạn cũng có các hệ thống con khác cũng có thể bị lỗi, chẳng hạn như các hệ thống giữ cho bộ nhớ của CPU được đồng bộ hóa, và việc tăng mức tiêu thụ năng lượng và sản lượng nhiệt cũng góp phần vào các yếu tố đằng sau sự cố hệ thống tổng thể (và tất nhiên, quạt làm mát hoạt động là một yếu tố khác điểm thất bại).


1
+1 để chỉ ra rằng CPU nhân đôi làm tăng khả năng thất bại của máy. Nhiều "bộ phận chuyển động" có nghĩa là nhiều cơ hội hơn cho thất bại xảy ra.
Evan Anderson

4

Bạn sẽ phải xác định chính xác loại lỗi bạn muốn xử lý. Nếu chúng ta coi một tập hợp các lõi / CPU / máy tính làm việc cùng nhau như một mạng, thì một loại lỗi là một nút chỉ dừng lại trả lời. Một lỗi nghiêm trọng hơn nhiều là khi một nút bắt đầu hỏng dữ liệu và gửi thông tin bị lỗi cho những người khác. Đây được gọi là sự cố Byzantine và trong trường hợp xấu nhất, nó chủ động phá vỡ hoạt động của mạng thông qua các "lời nói dối" chiến lược. Nó tương đối dễ dàng cho thấy rằng không có hệ thống nào có thể xử lý một phần ba hoặc nhiều nút của nó đi Byzantine.

Những gì bạn cần làm là quyết định chính xác loại thất bại nào bạn mong đợi và thiết kế hệ thống của bạn với ý nghĩ đó và chấp nhận thực tế rằng vấn đề xử lý một số nút độc hại là không thể giải quyết được. Trong trường hợp của bạn, bạn cần ít nhất bốn CPU nếu một trong số chúng bị lỗi.

Một lưu ý phụ: Trong vật lý lượng tử không có sự bất khả thi, nhưng nếu phải chờ lâu hơn tuổi của vũ trụ để thống kê có cơ hội quan sát một hành vi nhất định, chúng ta không cần phải nói rằng điều đó là có thể. Hãy ghi nhớ điều đó khi bạn thiết kế hệ thống của mình. ;)


2

Lỗi CPU là rất hiếm. Một lỗi có thể sẽ dẫn đến các vấn đề khác ở cấp độ hệ điều hành. Tôi sẽ không nghĩ đây là bất kỳ hình thức chịu lỗi nào.


1

Như các câu trả lời khác, rất hiếm khi CPU bị lỗi và trong các máy chủ trung bình bạn không thể thực hiện trao đổi nóng, điều bạn có thể làm là rời khỏi máy chủ với một CPU cho đến khi thay thế một lỗi cho CPU. thủ tục hoàn toàn ngoại tuyến và bạn cần dừng máy chủ


1
Vâng, tôi sẽ không gọi nó là siêu hiếm. Chỉ xảy ra trên một trong các máy chủ của tôi. Hiện đang trong quá trình xử lý sự cố. Máy chủ CPU kép chỉ bị mất một trong các CPU do lỗi quạt.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.