Các bộ xử lý hiện đại có dự phòng trong các đơn vị logic của chúng để bù đắp lỗi sản xuất không?

10

Bộ xử lý hiện đại bao gồm hàng tỷ bóng bán dẫn và công nghệ sản xuất mới thường có vấn đề với năng suất, ít nhất là trong những tháng đầu tiên, nhưng tôi đoán rằng thậm chí sau nhiều năm sẽ có những con chip bị lỗi mỗi lần.

Tôi biết rằng trong các khối lớn (ví dụ: bộ đệm) có khả năng chỉ vô hiệu hóa các phần của nó và bằng cách giảm lượng bộ nhớ có sẵn (vì vậy ít nhất bạn có thể bán chip với giá thấp hơn thay vì vứt nó đi). Nhưng có một cái gì đó tương tự cho các đơn vị logic? Tôi biết rằng có nhiều ALU để phân phối, nhưng đây có phải là một thứ chỉ để vô hiệu hóa một trong số chúng nếu có lỗi sản xuất không? Hoặc thậm chí còn có ALU dự phòng bổ sung? Bởi vì đối với tôi, thật khó để tin rằng fab chỉ loại bỏ mọi chip có bóng bán dẫn bị lỗi trong các bộ phận logic, trong khi vô hiệu hóa ALU hoàn chỉnh sẽ làm giảm đáng kể sức mạnh xử lý có thể đạt được.

microprocessor production

— jusaca
nguồn

Chỉ là phỏng đoán của tôi. Giá sản xuất wafer silicon tương đối thấp với số lượng lớn, và bạn có thể kiểm tra nó trước khi có vỏ, vì vậy bạn có thể sản xuất chip hoàn chỉnh với tỷ lệ thất bại tương đối thấp. > 50% giá là tiếp thị thuần túy. Ngoài ra tôi nghĩ rằng nhiều biến thể bộ xử lý trong cùng một họ được tạo trên cùng một cấu trúc liên kết và chỉ khác nhau ở một số tính năng / lõi / bộ nhớ tắt (như bạn đã viết), vì vậy nhà sản xuất có khoảng cách lớn để duy trì tỷ lệ thất bại sản xuất thấp ngay cả với đơn vị bị hư hỏng. Nhưng tôi nghi ngờ rằng họ có, giả sử, một số ALU dành riêng cho cùng một lõi.

— lốc xoáy125

Tôi nghĩ rằng ví dụ nổi tiếng nhất về điều này là Intel 486SX, cùng loại với DX với một FPU bị vô hiệu hóa. Nhưng tôi rất muốn nghe trạng thái hiện đại của việc này là gì.

— pjc50

Tôi hoàn toàn nghi ngờ nó. Lượng logic và thời gian thiết kế cần thiết để cho phép dự phòng mức độ thấp ở tốc độ của bộ xử lý hiện đại sẽ không đáng giá. Dự phòng cấp độ khối (lõi, fpu, bộ đệm) hoặc vô hiệu hóa khối sẽ là quá đủ để tăng năng suất đáng kể. Và với giá bộ xử lý hiện tại và kích cỡ wafer, thậm chí lợi suất 5% có thể mang lại lợi nhuận.

— Edgar Brown

Vì vậy, bạn nghĩ rằng, bất cứ khi nào ALU không thể sử dụng được, họ chỉ cần vô hiệu hóa lõi. Vâng, có thể là một khả năng. Tôi hy vọng ai đó ở đây sẽ thực sự biết.

— Jusaca

1

Vâng, họ vô hiệu hóa cốt lõi. Đó là một thực hành gọi là "binning".

— DKNguyen

3

Như những người khác đã nói, rất khó để thấy logic ALU dư thừa trong một lõi.

Một lõi được thiết kế để tối ưu hóa thông lượng. Bất kỳ logic bổ sung nào cho ALU dự phòng sẽ ảnh hưởng đến hiệu suất và diện tích tăng sẽ làm chậm toàn bộ lõi. Khi công nghệ phát triển, silicon trở nên nhỏ hơn, làm cho lõi nhanh hơn, nhưng về cơ bản sử dụng cùng một tài sản trí tuệ. Tại sao có ALU dư thừa, khi không gian có sẵn cho các lõi dự phòng để tăng năng suất sản xuất?

Năm 2011, Intel đã nộp bằng sáng chế cho ít nhất 32 lõi với 16 lõi hoạt động và 16 lõi dự phòng. Các quốc gia bằng sáng chế không có lõi sẽ có nhiệt độ cao hơn cho phép chuyển đổi lõi dự phòng. Về cơ bản, phân bổ lõi động theo yêu cầu.

Bạn có thể có các lõi công suất cao và năng lượng thấp được phân bổ theo yêu cầu của các tác vụ. Hoặc chuyển ra một lõi xấu được phát hiện bởi các mức nhiệt độ cao hơn. Vận hành các lõi theo cách kiểm tra để giảm nhiệt.

Bằng sáng chế của Intel: Nâng cao độ tin cậy của Bộ xử lý nhiều lõi

— Không gỉSteelRat
nguồn

Điều đó thực sự có ý nghĩa rất lớn, tôi đã không nghĩ về tác động hiệu suất, rằng các khu vực silicon dự phòng bên trong một lõi có thể có. Vô hiệu hóa toàn bộ lõi dường như là cách để đi, vì các câu trả lời khác cũng đang ngụ ý.

— Jusaca

5

Không theo logic.

Tuy nhiên, nếu có bộ nhớ lớn (SRAM), thông thường sử dụng bộ nhớ có 'dự phòng'. Chúng có logic đặc biệt có thể được lập trình để thay thế một khu vực, thường là một số hàng hoặc cột.

Vùng bị lỗi được phát hiện trong quá trình kiểm tra và sau đó bộ nhớ dự phòng được lập trình để thay thế (các) vị trí bị lỗi.

Tuy nhiên, 'thay thế' này phải được thiết lập bằng các bit OTP (Lập trình một lần) hoặc một số bộ nhớ khác giữ giá trị của nó. Do đó, những bộ nhớ này chỉ được sử dụng trong các chip có tính năng 'bộ nhớ vĩnh viễn' hoặc tính năng lập trình như vậy cũng phải được thêm vào, với tất cả các chi phí phát sinh.

— Oldfart
nguồn

Bạn có nghĩ rằng các bit OTP này được lập trình điện tử, như đốt cháy cầu chì hoặc thứ gì đó, hoặc các nhà sản xuất lớn phải trực tiếp đi vào khuôn bằng cắt laser?

— Jusaca

1

OTP là các cầu chì trên chip có thể được lập trình điện tử (giống như EEPROM nhưng sau đó là vĩnh viễn) Người dùng cuối cũng có thể ghi chúng để lấy số sê-ri, địa chỉ Ethernet, khóa mã hóa, v.v.

— Oldfart 14/03/19

4

Đây chắc chắn không phải là trường hợp của MCU đơn giản, hoặc bộ xử lý lõi đơn điển hình. Chi phí để có các khối dự phòng sẽ không đáng, và những bộ xử lý đó không sử dụng các quy trình khắc tiên tiến và không yêu cầu các khu vực silicon lớn, do đó năng suất đủ tốt.

Tuy nhiên, điều này được thực hiện cho một số bộ xử lý đa lõi, trong đó diện tích silicon khá lớn và sử dụng các quy trình khắc tốt hơn có thể dẫn đến tỷ lệ lỗi cao hơn. Trên các bộ xử lý này, toàn bộ lõi có thể bị vô hiệu hóa (là các khối logic khá lớn, chứa nhiều hơn ALU) khi chúng bị lỗi. Bộ xử lý sau đó được bán dưới dạng mô hình cấp thấp hơn.

Nguồn: /skeptics/15704/are-low-spec-computer-parts-just-faulty-high-spec-computer-parts

— Mờ mất niềm tin vào SE
nguồn

3

Tôi chắc chắn không thể trả lời câu hỏi của bạn chắc chắn. Thật vô nghĩa khi vô hiệu hóa các đơn vị nhỏ hơn 1 lõi, vì nó trở thành một "bộ tính năng" rất chi tiết có thể được kích hoạt hoặc không, và sản phẩm Cartesian của tất cả các tính năng có thể sẽ tạo ra vô số các mô hình CPU có thể. Đã có rất nhiều mô hình CPU, làm cho chúng gấp 10 - 100 lần chắc chắn sẽ không giúp ích gì!

Một khía cạnh khác là hàng tỷ bóng bán dẫn được sử dụng (phần lớn) trong việc tạo bộ nhớ cache và đối với các bóng bán dẫn bị lỗi, các nhà sản xuất chắc chắn bán CPU với các bộ phận của bộ đệm ẩn bị chết (ví dụ, AMD Thorton vs AMD Barton).

Nhưng tôi có thể kể cho bạn một giai thoại mà tôi đã nghe từ một người mà tôi tin tưởng. Một thời gian dài trước đây tôi là một người ép xung tò mò. Vào thời của tôi, CPU có thể ép xung ngân sách được lựa chọn là AMD Athlon Thoroughbred:

Khi lắp các giải pháp làm mát tùy chỉnh, người ta phải rất cẩn thận trong khi gắn tản nhiệt, vì nó ép trực tiếp vào khuôn. Nếu bạn áp dụng áp lực không đồng đều, khuôn sẽ nổi tiếng là dễ bị nứt ở các góc, nếu bạn tác dụng lực ở một góc trước.

Người này đã thực hiện chính xác điều tương tự, một phần đáng kể của một góc đã biến mất, nhưng CPU vẫn hoạt động tốt một cách kỳ diệu, mặc dù hiệu năng bộ nhớ giảm đi nhiều. Góc chỉ chứa bộ đệm L2, vì vậy với phần đó đã biến mất, giao thức bộ đệm đã bằng cách nào đó hoạt động xung quanh cái chết rất khiếm khuyết. Có lẽ nó đã báo cáo lỗi bộ nhớ cache cho tất cả các truy vấn trong phần đó, do đó CPU bị giảm xuống chỉ còn bộ đệm L1 (hoặc chỉ một phần của L2), do đó, hầu hết các bài kiểm tra đều chậm hơn, nhưng hầu như đều có hiệu suất tương tự trên các vòng lặp chặt chẽ.

Trong cùng một dòng suy nghĩ, có thể nói rằng nếu ALU bị lỗi và có khả năng báo hiệu lại bằng cách nào đó rằng nó đã từ chối công việc, CPU có thể có khả năng quay trở lại các ALU khác. Việc điều này có được thực hiện bởi các nhà sản xuất CPU hay không (và tôi nghi ngờ về điều đó), nhưng ví dụ về bộ đệm (từ 15 năm trước) cho thấy điều đó chắc chắn là có thể thực hiện được.

— anrieff
nguồn

Điều này chắc chắn là rất ấn tượng, và nó thậm chí dường như là một loại quy trình động, bởi vì hệ thống tự phát hiện phần chip bị lỗi. Khi đặt câu hỏi, tôi có thêm một phát hiện bởi một hệ thống thử nghiệm trong dây chuyền sản xuất. Nhưng câu chuyện này chắc chắn rất thú vị;)

— jusaca