Làm thế nào CPU có thể ổn định khi chúng có quá nhiều bóng bán dẫn?


10

Như chúng ta đã biết CPU có hàng tỷ bóng bán dẫn trên một hình thu nhỏ duy nhất, nếu một trong các bóng bán dẫn bị hỏng thì sao?

CPU có cơ chế tự động phục hồi nào không?


6
Trên thực tế những cái lớn hơn hiện nay chứa hàng tỷ bóng bán dẫn.
starblue

6
"Ổn định" có lẽ không phải là từ đúng, vì điều đó càng hướng đến các vấn đề như tính di động. Một lựa chọn tốt hơn cho chủ đề này sẽ là những từ như 'không khuyết tật' hoặc 'năng suất'. Hoặc bạn có thể hỏi về sự ổn định của quá trình sản xuất, thay vì các chip kết quả.
Chris Stratton

2
@ChrisStratton, tôi nghĩ OP có thể hỏi nhiều về độ tin cậy hơn năng suất.
Photon

1
Nếu một trong các bóng bán dẫn bị hỏng, bạn ném chip ra. Không có dự phòng (trừ một số ứng dụng cụ thể) và không có tùy chọn sửa chữa.
Dmitry Grigoryev

Câu trả lời:


18

Thật đơn giản, chúng tôi kiểm tra chúng trước khi chúng bán chúng và ném những cái xấu ra ngoài.

Có rất nhiều cách để làm điều này - những người khác nhau làm việc khác nhau, thường sử dụng kết hợp:

  • một số thử nghiệm ở tốc độ để đảm bảo chúng đi đủ nhanh.

  • các thử nghiệm khác liên quan đến một chế độ biến một số hoặc tất cả các flipflop trong chip thành các thanh ghi dịch chuyển nối tiếp khổng lồ, chúng tôi đồng hồ dữ liệu đã biết vào các chuỗi đó, sau đó chạy chip cho một đồng hồ và sau đó quét kết quả mới và kiểm tra xem chúng có khớp không kết quả dự đoán của chúng tôi - các công cụ kiểm tra tự động tạo ra một "vectơ quét" tối thiểu sẽ kiểm tra mọi cổng hoặc bóng bán dẫn ngẫu nhiên trên chip - các vectơ khác thực hiện các thử nghiệm đặc biệt về các khối ram,

  • những người khác kiểm tra rằng tất cả các dây bên ngoài được liên kết chính xác

  • chúng tôi đảm bảo rằng nó không kéo theo một dòng điện không lành mạnh

Việc kiểm tra tốn thời gian, đôi khi chúng tôi thực hiện một số thử nghiệm đơn giản cho các chip chết rõ ràng trước khi chúng được đóng gói để loại bỏ những cái xấu và sau đó kiểm tra thêm sau khi đóng gói xong


1
"Thật đơn giản, chúng tôi đã kiểm tra chúng trước khi chúng bán chúng và ném những cái xấu ra ngoài." Nếu đó là hệ thống chất lượng duy nhất bạn có thể có khả năng đạt 0,000000001% với 1 tỷ thiết bị bóng bán dẫn
Federico Russo

2
Nó thật sự đơn giản; mẹo là trong số lượng cực lớn mô phỏng và kiểm tra quy tắc trước để đảm bảo rằng năng suất của bạn có thể chấp nhận được. Rất hiếm khi có sự dư thừa trong logic CPU; đôi khi bạn nhận được một chút dư thừa trong RAM trên chip.
pjc50

Nếu thiết kế phù hợp, các lỗi cá nhân của bạn đến từ lỗi vật liệu, nhiễm bẩn, lỗi quy trình, v.v. Mặc dù chỉ có một vài kích cỡ wafer được sử dụng, các IC lớn hơn đắt hơn kích thước tương ứng của chúng, vì khả năng lỗ hổng tăng lên với khu vực. Trong một vài trường hợp, bạn có thể có một con chip với nhiều đơn vị chức năng hơn đôi khi được bán cùng, vì vậy nó vẫn có thể bán được nếu một cái xấu, nhưng điều đó bị hạn chế. Đôi khi, bạn có thể mua các bản đồ với giá giảm chỉ được kiểm tra để hoạt động như được sử dụng bởi một tệp cấu hình cụ thể, thay vì làm việc với một tệp tùy ý.
Chris Stratton

2
Tôi nghĩ bạn đã quên đề cập đến các nhà sản xuất như AMD bán bộ vi xử lý có lõi xấu như một model khác với lõi xấu bị khóa. Đó là một loại dư thừa, hoặc tiếp thị thông minh có lẽ.
akaltar

Nếu bất cứ ai từng tự hỏi làm thế nào các bộ phận thị trường màu xám được cung cấp, họ sẽ không tự hỏi nữa. Tôi đã làm việc ở phần mềm cuối của các hệ thống chip fab và thử nghiệm tự động như được mô tả ở đây là một phần lớn thời gian và chi phí tiền bạc cho các nhà máy.

12

Để mở rộng một chút về những gì người khác đã nói: Có xác nhận và sau đó có phân loại chip.

Các bóng bán dẫn trong CPU có xu hướng hiển thị các vấn đề của chúng ở tần số cao hơn, do đó, thông thường sẽ tạo ra một CPU và sau đó tiếp thị nó dưới dạng một số sản phẩm khác nhau. Các CPU rẻ hơn thực sự là phiên bản bị hỏng của CPU đắt tiền. Một tùy chọn khác là vô hiệu hóa một số phần của CPU. Ví dụ, AMD sản xuất bộ xử lý với lõi BArton. Nó cũng bán bộ xử lý với lõi Thorton. Thorton không phải là một lõi mới. Thay vào đó, một nửa bộ đệm L2 bị lỗi và bị vô hiệu hóa. Bằng cách này, AMD đã thực hiện một số phục hồi trên các CPU có thể bị lãng phí.

Điều tương tự cũng xảy ra với bộ xử lý 3 lõi của AMD. Chúng ban đầu là 4 bộ xử lý lõi, nhưng một trong những lõi được xác định là bị lỗi, vì vậy nó đã bị vô hiệu hóa.


2
Không có gì lạ khi tạo ra một thiết kế chip với các tính năng bạn có thể vô hiệu hóa bằng cách thổi cầu chì. Tính kinh tế đơn giản của năng suất chip, nếu chúng ta có thể cứu vãn tất cả hoặc một phần chip bằng cách chạy chậm hơn hoặc vô hiệu hóa một tính năng không thành công trong thử nghiệm, chúng ta có thể phục hồi một phần chi phí của phần đó thay vì ném toàn bộ phần. bạn cũng có thể quay lại intel 386 SX và DX làm ví dụ. và khá nhiều cpu được phân loại tốc độ. những cái chậm hơn là những phần thất bại ở tốc độ nhanh hơn.
old_timer

2
Không, không phải là 386SX / 386DX. Những con chip này có giao diện bus hoàn toàn khác nhau. Bạn không chỉ vô hiệu hóa một phần của 386DX để có được 386SX. Những gì bạn nói là đúng với 486DX / 486SX, cái sau có FPU bị vô hiệu hóa.
Michael Karcher

6

Câu trả lời cho câu hỏi của bạn là "Không." Hiện tại không có phương pháp tự động phục hồi cho các lỗi phần cứng.

Các nhà sản xuất thiết kế các quy trình của họ để có được năng suất (đô la) tốt nhất có thể từ các tấm wafer của họ. Bằng cách thu nhỏ các bóng bán dẫn, chúng có thể phù hợp với nhiều chức năng hơn trong khu vực ít hơn. Điều này có thể được coi là nhiều chip hơn (có cùng chức năng) trên mỗi wafer. Khi kích thước chip co lại, bạn có thể lấy được nhiều hơn từ wafer, nhưng khi chúng co lại, nhiều trong số chúng biến thành xấu. Các nhà sản xuất chấp nhận điều này, và liên tục thúc đẩy công nghệ thu nhỏ chip. Thứ nói với họ rằng họ đang ở rìa phong bì là những con chip xấu.

Nếu một công ty có thể thu nhỏ kích thước tính năng xuống 70% kích thước tính năng cũ, họ có thể nhận được khoảng 2 lần số lượng chip trên một wafer. Nếu năng suất của họ trên quy trình cũ là 95% (giả sử, 95 chip chip tốt trong số 100 trên một wafer) và năng suất của họ trên quy trình mới là 75% (150 chip tốt trong số 200 trên một wafer) họ đã kiếm được tiền quy trình mới.


5
Đối với một số loại chip như bộ nhớ flash NAND, các nhà sản xuất thường xuyên đẩy phong bì vượt quá điểm mà chip không khuyết tật là tiêu chuẩn, nhưng hầu hết các lỗi sẽ có một số đặc điểm có thể dự đoán được và các thiết bị sử dụng chip sẽ được mong đợi làm việc xung quanh họ.
năm11 lúc

3

Tại các nút nhỏ, mỗi "bóng bán dẫn" là 2 cổng trừ khi bạn có bộ nhớ, chẳng hạn như SRAM. Nếu một cái không hoạt động, bạn chỉ cần có một trình điều khiển chậm. Đối với SRAM, nếu nó không vượt qua, bạn chỉ cần "thổi" hàng. Nếu cả hai FETS trên bóng bán dẫn đều thất bại, bạn sẽ có một mảnh cát rất đắt tiền, nhưng cá nhân tôi chưa bao giờ có chuyện đó xảy ra. Các FinFE hiện đại rất nhỏ, có một loạt các vấn đề sản xuất (chủ yếu là phức tạp) do bản chất của in thạch bản và xác suất. Bạn sẽ thấy rằng những thứ đầu tiên trên các quy trình mới là các GPU vì bạn chỉ có thể "thổi bay" các ô xấu và thay đổi biểu đồ định tuyến. Tôi không thể cung cấp cho bạn các con số, nhưng bạn có thể đoán bằng cách thế giới x86 thực hiện việc đóng thùng, mọi thứ hiếm khi diễn ra hoàn hảo.

Đây là một minh họa về cách bố trí của một ô XOR: XOR

Các thanh màu xanh lá cây trái / phải là vây và màu đỏ là poly. Màu xanh là kim loại màu ở cấp 1.

CPU thương mại không có cơ chế tự động phát hiện, nhưng mọi thứ trôi nổi trong giới hàn lâm và CPU ứng dụng đặc biệt thì có. Tôi đã tạo ra một số thành phần chuyên dụng sử dụng các kiến ​​trúc không đồng bộ để giải quyết các vấn đề về đồng hồ phát sinh do các cổng xấu mặc dù sự phá hủy oxit của một lỗ như một chất mang nóng, nơi bạn chỉ cần một bóng bán dẫn thực sự chậm.


3

Rõ ràng thời gian đã thay đổi. Nhiều câu trả lời năm tuổi trong câu hỏi này không còn phản ánh tình trạng nghệ thuật và một số không chính xác sau đó.

Các bóng bán dẫn và các thiết bị khác trên silicon khá ổn định sau khi sản xuất, với điều kiện IC không quá nóng.

Dưới đây là những điều được thực hiện trong quy trình sản xuất vi mạch hiện đại để giảm thiểu lỗi:

  • IC được thử nghiệm rộng rãi, cả ở mức độ xác nhận và xác minh thiết kế và thử nghiệm mẫu riêng lẻ. Bài viết này mô tả một số quy trình thử nghiệm cho Pentium 4.
  • thiết kế tổng thể của IC hiện quá phức tạp để xác minh hoàn toàn
  • IC có vi mã lập trình, cho phép mức độ tương thích lập trình hạn chế nếu phát hiện lỗi sau khi sản xuất
  • IC hiện đại chứa các lớp silicon dư thừa, cho phép sửa lỗi trong quá trình sản xuất
  • nhiều CPU có các mô-đun phần cứng dự phòng, cho dù đây là các lõi CPU, bộ nhớ đệm hoặc IP khác; nếu không phải tất cả các đơn vị đều hoạt động, một số có thể bị vô hiệu hóa và "bị phạt" là các bộ phận có chi phí thấp hơn. Một ví dụ là IC đa lõi PS4 bao gồm một lõi dự phòng bị vô hiệu hóa để đạt được năng suất cao hơn.
  • một số CPU sẽ thực hiện nhưng không ở tốc độ cao nhất; Chúng có thể được bán dưới dạng CPU tốc độ thấp hơn, chi phí thấp hơn
  • nhiều CPU và RAM sử dụng bộ nhớ mã hóa sửa lỗi (ECC) hoặc thực hiện sửa lỗi xác thực thông báo ở các giai đoạn truyền dữ liệu khác nhau để đảm bảo tính toàn vẹn
  • đôi khi các bộ xử lý sẽ thất bại theo cách gây ra sự cố hệ thống nhưng không ngăn hệ thống hoạt động trở lại nếu khởi động lại (chốt chốt)

Lỗi lập trình trong đặc tả chính thức của bộ xử lý có nhiều khả năng hơn là lỗi của một bóng bán dẫn cụ thể.

Trong khi CPU thông thường không có bất cứ điều gì giống như một khả năng autorecovery, cũng đã được làm việc trên CPU tự đặt lại như một biện pháp đối phó với các tia vũ trụ. Các tia vũ trụ có thể gửi đủ năng lượng trong CPU hoặc RAM để gây ra các cú lật.

Như đã chỉ ra trong các bình luận, các hệ thống quan trọng đã dựa vào nhiều CPU để xác minh trong một thời gian dài. Các tàu con thoi, trở lại vào năm 1976 , là một ví dụ, sử dụng năm máy tính, bốn trong số đó chạy chương trình tương tự và "bình chọn" trên tất cả các quyết định kiểm soát bay để đảm bảo an toàn.


ECC và phát hiện lỗi đã được sử dụng trong một thời gian khá lâu (đối với bộ nhớ và giao tiếp, đối với các hàm số học và logic tương tự, một số hệ thống cao cấp đã phát hiện lỗi trong nhiều năm). Tương tự, thực thi dự phòng (không gian hoặc thời gian) đã được sử dụng để phát hiện lỗi trong một thời gian khá lâu trong các hệ thống mà chi phí trong phần cứng / thời gian thực hiện có vẻ hợp lý.
Paul A. Clayton

@ PaulA.Clayton nếu bạn muốn đăng bài về Itanium và sau đó là các tính năng Xeon RAS, tôi chắc chắn sẽ rất vui khi bỏ phiếu cho điều đó.
Oleksandr R.

2

Hầu hết các bóng bán dẫn bộ xử lý hiện đại là FET. Chúng có lợi thế là đạt được sức đề kháng nguồn / cống khi bắt đầu quá tải. Đây là một yếu tố cho phép thực hiện MOSFE công suất cao bằng cách đặt nhiều song song. Tải tự động phân phối. Đó có thể là một yếu tố để giúp phân phối các vấn đề. Nhưng tôi nghĩ nó thực sự đơn giản hơn thế.

Như với hầu hết các bộ phận điện tử, nếu bạn lái chúng trong spec, chúng sẽ tồn tại khá lâu. Khi một bộ vi xử lý được thực hiện, có hai yếu tố cho chi phí. Chỉ là không gian trên silicon và, do sự phức tạp, năng suất thực tế. Không phải tất cả các chip hoạt động sau khi sản xuất. Tuy nhiên, một khi nó được thực hiện và kéo dài quá trình xác nhận, bạn biết các bóng bán dẫn là tốt. Nếu được thúc đẩy trong spec, nhiều khả năng họ sẽ sống tốt.


2

Bạn đã bao giờ tự hỏi tại sao cùng một con chip đôi khi được bán ở tốc độ khác nhau? Và bạn có nhận thấy rằng đôi khi cùng một kiến ​​trúc chip GPU được bán với số lượng đơn vị nội bộ khác nhau không?

Không có cách khắc phục khiếm khuyết phần cứng ở cấp độ silicon, nhưng theo thời gian, các nhà thiết kế đã học được cách đối phó với vấn đề tăng năng suất . Không có tầm nhìn xa, năng suất chỉ phụ thuộc vào chất lượng sản xuất. Tuy nhiên, nếu bạn khéo léo, bạn có thể phục hồi một số chip xấu.

Chẳng hạn, giả sử rằng bạn có thiết kế chip 18 lõi, hoạt động độc lập ít nhiều. Trong quá trình thử nghiệm, bạn sắp xếp các chip hoàn hảo và phát hành dưới dạng mô hình A18. Hầu hết các chip bị lỗi chỉ có một lỗi, vì vậy chúng sẽ hoạt động tốt miễn là lõi bị lỗi bị vô hiệu hóa. Bạn bán chúng dưới dạng mô hình A17 với giá thấp hơn một chút và những lõi có hai lõi xấu được bán dưới dạng mô hình A16 với giá thấp hơn bao giờ hết.

Điều tương tự có thể áp dụng cho đánh giá tốc độ của chip. Chip được sản xuất hoàn hảo sẽ có khả năng chạy ở tốc độ vượt quá thông số thiết kế, nhưng chip có vấn đề thì không. Chúng được bán ở thông số kỹ thuật tốc độ thấp hơn.

Phương pháp này sẽ làm tăng đáng kể năng suất tổng thể và do đó khá phổ biến. Chẳng hạn, PlayStation 3 có 8 đơn vị phần cứng, nhưng một thiết bị luôn bị vô hiệu hóa để giải quyết các vấn đề về năng suất.


1

CPU có cơ chế tự động phục hồi nào không?

Không như đã giải thích ở trên. Tuy nhiên, bộ nhớ cache của họ, đặc biệt là L2 và L3, có thể có thêm RAM trong đó. Khi bộ phận được kiểm tra tại nhà máy, các khối RAM xấu có thể được loại bỏ và các khối RAM bổ sung được sử dụng.


1

Nói chung là không, bạn bao gồm các bóng bán dẫn xấu thông qua màn hình chip và bạn mong đợi một tỷ lệ tổn thất tương đối nhỏ sau đó. Việc kinh doanh chip đã tồn tại hàng thập kỷ, họ có rất nhiều mánh khóe để quản lý việc này (và vâng, đôi khi một trong những thủ thuật là chỉ để những phần xấu ra ngoài và thay thế chúng miễn phí hoặc để khách hàng không hài lòng).

Đối với môi trường cứng bức xạ (không gian), bạn có thể sẽ bỏ phiếu ba lần, mỗi "bit" thực sự có ba bit để bỏ phiếu. nó chỉ mất hai phần ba phiếu để xác định cài đặt bit. vì vậy các bóng bán dẫn trong một phần ba khác có thể trở nên tồi tệ và cuối cùng sẽ có tổng liều. nhưng mối quan tâm chính là sự kiện đơn lẻ. Những con chip và hệ thống này được thiết kế cho các môi trường này từ trên xuống dưới, silicon, phần cứng, phần mềm, v.v. Và chúng sử dụng công nghệ cũ đã được thử nghiệm và thực sự, không tiên tiến, do đó, số lượng bóng bán dẫn và kích thước của bóng bán dẫn là từ nhiều năm trước.

COTS dự kiến ​​sẽ nấc và thất bại theo thời gian.


-1

Nó có vẻ như là một phép lạ nhưng có một số cơ chế được sử dụng để giảm lượng hỏng hóc của bóng bán dẫn. Tuy nhiên, tùy thuộc vào loại lỗi mà bóng bán dẫn gặp phải và ở đâu, CPU có thể vẫn có thể không sử dụng được trong một số điều kiện nhất định.

Hiện tại, thường không có cơ chế tự động phục hồi được xây dựng nhưng có rất nhiều nghiên cứu về điện toán có thể cấu hình lại, dự phòng và các kỹ thuật khác để giảm thiểu vấn đề này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.