Điều gì nếu một bóng bán dẫn duy nhất thất bại trong một bộ vi xử lý? [đóng cửa]


7

Điều gì nếu một bóng bán dẫn duy nhất thất bại trong một bộ vi xử lý hoặc trong RAM?

Do thất bại, tôi có nghĩa là nó hoàn toàn ngừng hoạt động (do quá nóng hoặc một số lý do khác) hoặc cho đầu ra không chính xác.

Một lỗi duy nhất có thể thay đổi opcode của bộ vi xử lý được chỉ định để được đọc như một số lệnh khác hoặc thu thập địa chỉ bộ nhớ dự định trong RAM và mọi thứ có thể xuống dốc từ đó.

Chiến lược phục hồi / bảo vệ nào mà máy tính có để chống lại điều này?


Trước khi các quy trình biến nó thành "hoang dã", chúng tồn tại trong nhiều năm. 14nm đã được thử nghiệm cách đây 10 năm và cuối cùng đã đến thời điểm tuyệt vời do ngưỡng nhất quán và không phải là lỗi bóng bán dẫn. Chúng tôi thực sự giỏi trong việc chế tạo bóng bán dẫn tại thời điểm này.
b deg Nam

Tôi mong đợi trong POST có một kernel thực thi tự kiểm tra cho loopback trên bus và so sánh với Op Code dự phòng. Nhưng chỉ Intel và AMD sẽ không biết mức độ phát hiện lỗi tự kiểm tra của họ trong khi bật nguồn. Có thể có tổng kiểm tra cho các hoạt động đăng ký và mã FSM được sử dụng để tự kiểm tra ngoài phạm vi địa chỉ bất hợp pháp và tất nhiên, so sánh đa lõi có thể được sử dụng để tự kiểm tra.
Tony Stewart Sunnyskyguy EE75

Để một bóng bán dẫn không I / O không hoạt động khi nó hoạt động trước đó rất xa, ít có khả năng hơn một (hoặc có thể một vài) bị hỏng hoặc ít nhất là cận biên từ lúc bắt đầu do lỗi sản xuất, vì vậy đó là nơi hầu hết sự chú ý đi Ném bom chip với các hạt năng lượng và mọi thứ có thể bắt đầu khác đi. Những nơi mà bạn thấy sự thất bại về tuổi của các yếu tố riêng lẻ trong các thiết bị thông thường là những thứ như các tế bào bộ nhớ flash, nhưng đó không thực sự là hành vi của bóng bán dẫn bị lỗi, hơn nữa là hành vi lưu trữ / không lưu trữ của cấu trúc bóng bán dẫn duy nhất.
Chris Stratton

Câu trả lời:


13

Trong các bộ phận tiêu dùng thương mại? Không ai. Nó đã được thử nghiệm tại nhà máy, có lẽ với một quá trình "đốt cháy" ngắn để bảo vệ chống lại những thất bại sớm. Từ đó trở đi, bất kỳ lỗi vĩnh viễn sẽ giết chết thiết bị. May mắn là điều này thường không xảy ra trong nhiều năm nếu thiết bị được giữ trong các thông số nhiệt độ.

Đối với các hệ thống quân sự / hàng không vũ trụ, có nhiều loại hệ thống dự phòng khác nhau có thể phát hiện và phục hồi sau những thất bại. Hoặc bằng một quá trình gọi là "thực thi bước chân", hoặc đơn giản là có nhiều máy tính như năm máy tính bay nổi tiếng của Tàu con thoi. (Dự án Apollo đã lên mặt trăng với một máy tính không dư thừa!)

Ngoài ra còn có RAM ECC, có sẵn cho các hệ thống cấp máy chủ và có thể phát hiện và sửa các lỗi bit đơn.


4
"Từ đó trở đi, bất kỳ lỗi vĩnh viễn nào cũng sẽ giết chết thiết bị" bạn có chắc không? Điều gì xảy ra nếu lỗi bóng bán dẫn đơn lẻ đó nằm ở một phần CPU không quan trọng như bộ đệm? CPU sẽ không tồn tại và một số hướng dẫn chỉ đưa ra kết quả sai?
tigrou

2
Phổ biến hơn thất bại bóng bán dẫn trong các ứng dụng không gian là vấn đề tương tác tia vũ trụ với cổng silicon. "Làm cứng bức xạ" là một phương tiện để che chắn một thiết bị silicon khỏi bức xạ sự cố có hại. Ngay cả với công nghệ Rad Hard này, nhiều sự dư thừa và sự đồng thuận đa số được sử dụng để tạo ra hoạt động có độ tin cậy cao.
Wossname

1
@tigrou có, tôi cho rằng nó phụ thuộc vào sự thất bại ở đâu; bộ nhớ cache có thể sẽ thất bại POST, trong khi những thứ như lỗi FDIV đã tồn tại trong nhiều năm trước khi bất kỳ ai chú ý. Nó cũng phụ thuộc vào fail-open vs fail-đóng - nếu bạn quản lý để rút ngắn một khu vực của chip, thiệt hại có thể lan rộng.
pjc50

2
@ pjc50: Apollo có 3 máy tính dự phòng được gọi là con người. Không giống như tàu con thoi, nó có thể bay nếu tất cả các máy tính của nó bị hỏng. Sự hiểu biết của tôi là ngay cả khi khởi động Saturn V, nếu máy tính bị hỏng sau khi khởi động động cơ, phi công có thể ném công tắc và điều khiển và có một cú bắn hợp lý để đưa nó vào quỹ đạo và làm cho TLI bị cháy.
Joshua

1
@tigrou - Bạn có nghiêm túc nói rằng bộ đệm là một phần không quan trọng không?
iAdjunc

9

Cách quá chung chung

Các bóng bán dẫn có thể là trong một phần bạn không sử dụng vì vậy bạn sẽ không bao giờ biết.

Nó có thể là trong một phần bạn sử dụng, nhưng điều kiện thất bại vẫn có thể hoạt động chỉ cần một số 0 ở đó, nó không thành một số 0 và điều đó là tốt, tôi đã không nhận thấy nó cho đến khi có lẽ một bản nâng cấp firmware sử dụng bóng bán dẫn đó khác nhau

Hoặc nó có thể ở một nơi mà bạn sử dụng và sự thất bại có thể dẫn đến bất kỳ số vấn đề có thể xảy ra có thể xuất hiện theo nhiều cách. Chắc chắn không thể mở rộng ở đây vì chúng tôi không biết bạn đang sử dụng phần nào và số lượng kết quả có thể xảy ra gần như không thể đo lường được là bao nhiêu trong một đại dương không bắt đầu bao gồm số lượng giả thuyết. Nó không đáng nói về nói chung, ngay cả trong hàng không vũ trụ.

Đối với các hệ thống COTS , không có gì để bảo vệ bạn; bạn có thể có phần mềm bao gồm những thứ dày đặc hoặc rủi ro như RAM, một loại thử nghiệm bộ nhớ POST . Nhưng nếu bóng bán dẫn thất bại như bạn đề xuất trong lõi bộ xử lý, thì bạn có một viên gạch, lại rơi xuống đại dương, không thể tạo ra một POST bao gồm các khả năng và báo cáo về chúng một cách chính xác, không đáng để nói về nó nó Bạn ném thứ đó và lấy cái khác. Bây giờ, khi tạo ra các bộ phận như RAM có nguy cơ cao hơn có thể có các khối thay thế trên khuôn có thể được hợp nhất khi sử dụng BIST hoặc các thử nghiệm màn hình khác. Tương tự như vậy, một số sản phẩm có nguồn gốc từ các sản phẩm khác, để quay trở lại vào ngày 80486SX so với 80486DX. Nếu đơn vị dấu phẩy động thất bại trong quá trình thử nghiệm sản xuất chip, bạn thổi (các) cầu chì để biến nó từ một DX tiềm năng thành một SX và bán nó theo cách đó.

Màn hình chip tìm kiếm và, với kinh nghiệm, bao gồm hơn 99,99% lỗi. Tùy thuộc vào sản phẩm, dự kiến ​​sẽ có một trong số hàng ngàn hoặc hàng chục ngàn người thất bại. Đó chỉ là cách nó được.

Không gian vũ trụ, đặc biệt là bức xạ, đặc biệt là dép xỏ ngón là hoặc khi bạn vẫn có những người xung quanh biết cách chế tạo những thứ đáng tin cậy (hiện tại họ đã nghỉ hưu), được ba phiếu, ba bộ bóng bán dẫn mỗi, nếu một bit bị lỗi hoặc gặp phải sự kiện đơn lẻ(đó là lý do chính cho việc bỏ phiếu ba lần) sau đó hai người còn lại thống trị phiếu bầu. Bạn có thể lập luận rằng bạn có được đối số what-if-one-fail. Nhưng bạn không bỏ phiếu ba lần mọi thứ logic tổ hợp không; nếu nó bị tấn công, nó sẽ ổn định trước khi chốt vào flip / flop tiếp theo. Bạn cũng cần nhiều bóng bán dẫn mạnh hơn để đối phó với sự kiện đơn lẻ, và bạn cũng có nhiều vật liệu khác để đối phó với tổng liều để kéo dài tuổi thọ của bộ phận trước khi toàn bộ vật thể chết vì phơi nhiễm. Hàng thập kỷ kinh nghiệm (tất cả đã mất cho những người trẻ tuổi không lớn lên trong thời đại dùng một lần, tạo ra rác không gian thay vì tạo ra một thứ luôn hoạt động). Một bóng bán dẫn bị hỏng không phải là mối quan tâm chính, sự kiện đơn lẻ và sự cố chốt là (điều này có thể / sẽ dẫn đến sự phá hủy nếu không được xử lý) tổng liều, v.v. Điểm thất bại duy nhất cùng với MTBF là rất quan trọng; MTBF phải dài hơn thời gian thực hiện nhiệm vụ và không có điểm thất bại nào có thể đi mà không bị phát hiện và giải quyết. Hai thất bại cùng một lúc thường không thể giải quyết được (thả trong đại dương).

Với COTS, bạn không lo lắng về việc một bóng bán dẫn bị hỏng; nó là tất cả về trung bình / thống kê. Bạn bắt đầu với kinh nghiệm và dù sao cũng không có nhiều xưởng đúc và họ biết họ đang làm gì. Bạn theo kinh nghiệm hàng thập kỷ về thiết kế, bố trí, xác minh thiết kế, thử nghiệm, v.v. . Nếu khách hàng của bạn đang mong đợi chất lượng và giá cả của COTS, nhưng các bộ phận cấp độ lỗi hoặc quân sự hoặc hàng không vũ trụ, bạn chỉ cần thông báo cho khách hàng rằng những gì họ đang yêu cầu là một mức độ lớn hơn về giá và độ lớn của băng thông chậm hơn / sức mạnh xử lý. Cũng như một thứ tự cường độ dài hơn thời gian dẫn.

RAM dày đặc là một lĩnh vực tập trung vào rất nhiều, không phải cho một lỗi bóng bán dẫn đơn lẻ, mà nhiều hơn cho sự kiện đơn lẻ, một bit lật. Vì vậy, ECC / EDAC được sử dụng, như đã đề cập trong sản xuất, có thể có BIST và một ngân hàng thay thế có thể được hợp nhất. Với những thứ như flash và / hoặc ổ cứng, chúng dễ bị lỗi nên ngoài tầm nhìn của người dùng, có thể có thêm các ngân hàng / lĩnh vực có thể bị đánh dấu xấu và các lĩnh vực khác bị tráo đổi. Có thể với RAM, nhưng thông thường không phải vì bạn không sử dụng RAM theo cách bạn sử dụng bộ nhớ không bay hơi, thay vào đó bạn sử dụng DIMMví dụ và yêu cầu người dùng thay thế chúng nếu / khi chúng bị lỗi. Thông thường giống như ổ cắm bộ xử lý dành cho nâng cấp hoặc lựa chọn cấu hình, không phải vì RAM thất bại ở bất kỳ tốc độ lớn nào so với các thành phần khác trên bo mạch.


4

Đây là một trò chơi thống kê. Bất kỳ một bóng bán dẫn nào cũng có thể có ảnh hưởng quan trọng (có thể là trong bộ tăng bộ đếm chương trình), ảnh hưởng đến hiệu suất (giả sử dòng bộ đệm không bao giờ chạm tới) hoặc suy giảm trải nghiệm người dùng (pixel bị kẹt hoặc tương tự). Hoặc có thể sự thất bại nằm ở logic thử nghiệm, vì vậy nó vô hình với hoạt động bình thường.

Đối với một số ứng dụng, những lỗi ngẫu nhiên này chỉ góp phần vào tuổi thọ của thiết bị (lỗi pin hoặc tác động của bộ gõ là những rủi ro đáng kể hơn). Lỗi tạm thời cũng quan trọng như lỗi phần cứng vĩnh viễn.

Các hệ thống máy chủ cần có khả năng phát hiện tuổi thọ cho các nút riêng lẻ, các hệ thống quan trọng về an toàn có nhiều khả năng sử dụng phát hiện và dự phòng - tuy nhiên việc quan sát các lỗi thiết bị đầu cuối nói chung là khó khăn. Tương phản điều này với một ổ cứng từ tính trong đó tỷ lệ sửa lỗi (và các số liệu khác) thường có thể được đo lường trước thời điểm xảy ra sự cố thảm khốc.

Tự kiểm tra toàn diện rất tốn thời gian - xem http://www.memtest86.com/ để biết ví dụ về một vấn đề đơn giản hơn so với kiểm tra bộ xử lý.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.