Như chúng ta đã biết CPU có hàng tỷ bóng bán dẫn trên một hình thu nhỏ duy nhất, nếu một trong các bóng bán dẫn bị hỏng thì sao?
CPU có cơ chế tự động phục hồi nào không?
Như chúng ta đã biết CPU có hàng tỷ bóng bán dẫn trên một hình thu nhỏ duy nhất, nếu một trong các bóng bán dẫn bị hỏng thì sao?
CPU có cơ chế tự động phục hồi nào không?
Câu trả lời:
Thật đơn giản, chúng tôi kiểm tra chúng trước khi chúng bán chúng và ném những cái xấu ra ngoài.
Có rất nhiều cách để làm điều này - những người khác nhau làm việc khác nhau, thường sử dụng kết hợp:
một số thử nghiệm ở tốc độ để đảm bảo chúng đi đủ nhanh.
các thử nghiệm khác liên quan đến một chế độ biến một số hoặc tất cả các flipflop trong chip thành các thanh ghi dịch chuyển nối tiếp khổng lồ, chúng tôi đồng hồ dữ liệu đã biết vào các chuỗi đó, sau đó chạy chip cho một đồng hồ và sau đó quét kết quả mới và kiểm tra xem chúng có khớp không kết quả dự đoán của chúng tôi - các công cụ kiểm tra tự động tạo ra một "vectơ quét" tối thiểu sẽ kiểm tra mọi cổng hoặc bóng bán dẫn ngẫu nhiên trên chip - các vectơ khác thực hiện các thử nghiệm đặc biệt về các khối ram,
những người khác kiểm tra rằng tất cả các dây bên ngoài được liên kết chính xác
chúng tôi đảm bảo rằng nó không kéo theo một dòng điện không lành mạnh
Việc kiểm tra tốn thời gian, đôi khi chúng tôi thực hiện một số thử nghiệm đơn giản cho các chip chết rõ ràng trước khi chúng được đóng gói để loại bỏ những cái xấu và sau đó kiểm tra thêm sau khi đóng gói xong
Để mở rộng một chút về những gì người khác đã nói: Có xác nhận và sau đó có phân loại chip.
Các bóng bán dẫn trong CPU có xu hướng hiển thị các vấn đề của chúng ở tần số cao hơn, do đó, thông thường sẽ tạo ra một CPU và sau đó tiếp thị nó dưới dạng một số sản phẩm khác nhau. Các CPU rẻ hơn thực sự là phiên bản bị hỏng của CPU đắt tiền. Một tùy chọn khác là vô hiệu hóa một số phần của CPU. Ví dụ, AMD sản xuất bộ xử lý với lõi BArton. Nó cũng bán bộ xử lý với lõi Thorton. Thorton không phải là một lõi mới. Thay vào đó, một nửa bộ đệm L2 bị lỗi và bị vô hiệu hóa. Bằng cách này, AMD đã thực hiện một số phục hồi trên các CPU có thể bị lãng phí.
Điều tương tự cũng xảy ra với bộ xử lý 3 lõi của AMD. Chúng ban đầu là 4 bộ xử lý lõi, nhưng một trong những lõi được xác định là bị lỗi, vì vậy nó đã bị vô hiệu hóa.
Câu trả lời cho câu hỏi của bạn là "Không." Hiện tại không có phương pháp tự động phục hồi cho các lỗi phần cứng.
Các nhà sản xuất thiết kế các quy trình của họ để có được năng suất (đô la) tốt nhất có thể từ các tấm wafer của họ. Bằng cách thu nhỏ các bóng bán dẫn, chúng có thể phù hợp với nhiều chức năng hơn trong khu vực ít hơn. Điều này có thể được coi là nhiều chip hơn (có cùng chức năng) trên mỗi wafer. Khi kích thước chip co lại, bạn có thể lấy được nhiều hơn từ wafer, nhưng khi chúng co lại, nhiều trong số chúng biến thành xấu. Các nhà sản xuất chấp nhận điều này, và liên tục thúc đẩy công nghệ thu nhỏ chip. Thứ nói với họ rằng họ đang ở rìa phong bì là những con chip xấu.
Nếu một công ty có thể thu nhỏ kích thước tính năng xuống 70% kích thước tính năng cũ, họ có thể nhận được khoảng 2 lần số lượng chip trên một wafer. Nếu năng suất của họ trên quy trình cũ là 95% (giả sử, 95 chip chip tốt trong số 100 trên một wafer) và năng suất của họ trên quy trình mới là 75% (150 chip tốt trong số 200 trên một wafer) họ đã kiếm được tiền quy trình mới.
Tại các nút nhỏ, mỗi "bóng bán dẫn" là 2 cổng trừ khi bạn có bộ nhớ, chẳng hạn như SRAM. Nếu một cái không hoạt động, bạn chỉ cần có một trình điều khiển chậm. Đối với SRAM, nếu nó không vượt qua, bạn chỉ cần "thổi" hàng. Nếu cả hai FETS trên bóng bán dẫn đều thất bại, bạn sẽ có một mảnh cát rất đắt tiền, nhưng cá nhân tôi chưa bao giờ có chuyện đó xảy ra. Các FinFE hiện đại rất nhỏ, có một loạt các vấn đề sản xuất (chủ yếu là phức tạp) do bản chất của in thạch bản và xác suất. Bạn sẽ thấy rằng những thứ đầu tiên trên các quy trình mới là các GPU vì bạn chỉ có thể "thổi bay" các ô xấu và thay đổi biểu đồ định tuyến. Tôi không thể cung cấp cho bạn các con số, nhưng bạn có thể đoán bằng cách thế giới x86 thực hiện việc đóng thùng, mọi thứ hiếm khi diễn ra hoàn hảo.
Đây là một minh họa về cách bố trí của một ô XOR:
Các thanh màu xanh lá cây trái / phải là vây và màu đỏ là poly. Màu xanh là kim loại màu ở cấp 1.
CPU thương mại không có cơ chế tự động phát hiện, nhưng mọi thứ trôi nổi trong giới hàn lâm và CPU ứng dụng đặc biệt thì có. Tôi đã tạo ra một số thành phần chuyên dụng sử dụng các kiến trúc không đồng bộ để giải quyết các vấn đề về đồng hồ phát sinh do các cổng xấu mặc dù sự phá hủy oxit của một lỗ như một chất mang nóng, nơi bạn chỉ cần một bóng bán dẫn thực sự chậm.
Rõ ràng thời gian đã thay đổi. Nhiều câu trả lời năm tuổi trong câu hỏi này không còn phản ánh tình trạng nghệ thuật và một số không chính xác sau đó.
Các bóng bán dẫn và các thiết bị khác trên silicon khá ổn định sau khi sản xuất, với điều kiện IC không quá nóng.
Dưới đây là những điều được thực hiện trong quy trình sản xuất vi mạch hiện đại để giảm thiểu lỗi:
Lỗi lập trình trong đặc tả chính thức của bộ xử lý có nhiều khả năng hơn là lỗi của một bóng bán dẫn cụ thể.
Trong khi CPU thông thường không có bất cứ điều gì giống như một khả năng autorecovery, cũng đã được làm việc trên CPU tự đặt lại như một biện pháp đối phó với các tia vũ trụ. Các tia vũ trụ có thể gửi đủ năng lượng trong CPU hoặc RAM để gây ra các cú lật.
Như đã chỉ ra trong các bình luận, các hệ thống quan trọng đã dựa vào nhiều CPU để xác minh trong một thời gian dài. Các tàu con thoi, trở lại vào năm 1976 , là một ví dụ, sử dụng năm máy tính, bốn trong số đó chạy chương trình tương tự và "bình chọn" trên tất cả các quyết định kiểm soát bay để đảm bảo an toàn.
Hầu hết các bóng bán dẫn bộ xử lý hiện đại là FET. Chúng có lợi thế là đạt được sức đề kháng nguồn / cống khi bắt đầu quá tải. Đây là một yếu tố cho phép thực hiện MOSFE công suất cao bằng cách đặt nhiều song song. Tải tự động phân phối. Đó có thể là một yếu tố để giúp phân phối các vấn đề. Nhưng tôi nghĩ nó thực sự đơn giản hơn thế.
Như với hầu hết các bộ phận điện tử, nếu bạn lái chúng trong spec, chúng sẽ tồn tại khá lâu. Khi một bộ vi xử lý được thực hiện, có hai yếu tố cho chi phí. Chỉ là không gian trên silicon và, do sự phức tạp, năng suất thực tế. Không phải tất cả các chip hoạt động sau khi sản xuất. Tuy nhiên, một khi nó được thực hiện và kéo dài quá trình xác nhận, bạn biết các bóng bán dẫn là tốt. Nếu được thúc đẩy trong spec, nhiều khả năng họ sẽ sống tốt.
Bạn đã bao giờ tự hỏi tại sao cùng một con chip đôi khi được bán ở tốc độ khác nhau? Và bạn có nhận thấy rằng đôi khi cùng một kiến trúc chip GPU được bán với số lượng đơn vị nội bộ khác nhau không?
Không có cách khắc phục khiếm khuyết phần cứng ở cấp độ silicon, nhưng theo thời gian, các nhà thiết kế đã học được cách đối phó với vấn đề tăng năng suất . Không có tầm nhìn xa, năng suất chỉ phụ thuộc vào chất lượng sản xuất. Tuy nhiên, nếu bạn khéo léo, bạn có thể phục hồi một số chip xấu.
Chẳng hạn, giả sử rằng bạn có thiết kế chip 18 lõi, hoạt động độc lập ít nhiều. Trong quá trình thử nghiệm, bạn sắp xếp các chip hoàn hảo và phát hành dưới dạng mô hình A18. Hầu hết các chip bị lỗi chỉ có một lỗi, vì vậy chúng sẽ hoạt động tốt miễn là lõi bị lỗi bị vô hiệu hóa. Bạn bán chúng dưới dạng mô hình A17 với giá thấp hơn một chút và những lõi có hai lõi xấu được bán dưới dạng mô hình A16 với giá thấp hơn bao giờ hết.
Điều tương tự có thể áp dụng cho đánh giá tốc độ của chip. Chip được sản xuất hoàn hảo sẽ có khả năng chạy ở tốc độ vượt quá thông số thiết kế, nhưng chip có vấn đề thì không. Chúng được bán ở thông số kỹ thuật tốc độ thấp hơn.
Phương pháp này sẽ làm tăng đáng kể năng suất tổng thể và do đó khá phổ biến. Chẳng hạn, PlayStation 3 có 8 đơn vị phần cứng, nhưng một thiết bị luôn bị vô hiệu hóa để giải quyết các vấn đề về năng suất.
CPU có cơ chế tự động phục hồi nào không?
Không như đã giải thích ở trên. Tuy nhiên, bộ nhớ cache của họ, đặc biệt là L2 và L3, có thể có thêm RAM trong đó. Khi bộ phận được kiểm tra tại nhà máy, các khối RAM xấu có thể được loại bỏ và các khối RAM bổ sung được sử dụng.
Nói chung là không, bạn bao gồm các bóng bán dẫn xấu thông qua màn hình chip và bạn mong đợi một tỷ lệ tổn thất tương đối nhỏ sau đó. Việc kinh doanh chip đã tồn tại hàng thập kỷ, họ có rất nhiều mánh khóe để quản lý việc này (và vâng, đôi khi một trong những thủ thuật là chỉ để những phần xấu ra ngoài và thay thế chúng miễn phí hoặc để khách hàng không hài lòng).
Đối với môi trường cứng bức xạ (không gian), bạn có thể sẽ bỏ phiếu ba lần, mỗi "bit" thực sự có ba bit để bỏ phiếu. nó chỉ mất hai phần ba phiếu để xác định cài đặt bit. vì vậy các bóng bán dẫn trong một phần ba khác có thể trở nên tồi tệ và cuối cùng sẽ có tổng liều. nhưng mối quan tâm chính là sự kiện đơn lẻ. Những con chip và hệ thống này được thiết kế cho các môi trường này từ trên xuống dưới, silicon, phần cứng, phần mềm, v.v. Và chúng sử dụng công nghệ cũ đã được thử nghiệm và thực sự, không tiên tiến, do đó, số lượng bóng bán dẫn và kích thước của bóng bán dẫn là từ nhiều năm trước.
COTS dự kiến sẽ nấc và thất bại theo thời gian.
Nó có vẻ như là một phép lạ nhưng có một số cơ chế được sử dụng để giảm lượng hỏng hóc của bóng bán dẫn. Tuy nhiên, tùy thuộc vào loại lỗi mà bóng bán dẫn gặp phải và ở đâu, CPU có thể vẫn có thể không sử dụng được trong một số điều kiện nhất định.
Hiện tại, thường không có cơ chế tự động phục hồi được xây dựng nhưng có rất nhiều nghiên cứu về điện toán có thể cấu hình lại, dự phòng và các kỹ thuật khác để giảm thiểu vấn đề này.