Giả sử chạy một shader đỉnh là 100 flops, điều đó có nghĩa là bạn có thể xử lý 1000e9 / 100 = 10e9 đỉnh mỗi giây.
Không, nó chắc chắn là không.
Về cơ bản, bạn nên xem xét bất kỳ tính toán nào về tốc độ thực thi của bất kỳ mã nào chỉ dựa trên số lượng "FLOPS" là đáng ngờ. Thật vậy, nói chung là tốt nhất nếu bạn hoàn toàn bỏ qua FLOPS.
Bạn đã không định nghĩa thuật ngữ "đơn vị song song"; không có định nghĩa đó, chúng tôi chỉ có thể đoán những gì bạn muốn.
Lấy Radeon 5870. Nó có 1600 đơn vị điểm nổi. Điều đó có nghĩa là, đối với mỗi chu kỳ, nó có thể thực hiện 1600 phép toán dấu phẩy động vô hướng cùng một lúc. Tuy nhiên, mỗi opcode VLIW hoạt động trên các thanh ghi toán học vectơ 5 chiều. Vì vậy, độ chi tiết nhỏ nhất có thể có của mã thực tế là 1600/5 hoặc 320 (lưu ý: đây là một sự đơn giản hóa lớn ). Đó là 320 chủ đề.
Tuy nhiên , đó không thực sự là cách nó hoạt động. Bạn không có 320 đường thực hiện riêng biệt đang diễn ra. Bạn không thể có 320 đoạn mã khác nhau thực thi trên 320 đơn vị khác nhau. Xem, các VLIW 5 chiều được nhóm thành các lõi SIMD 4 chiều. Mỗi SIMD có thể có đường dẫn thực hiện riêng và mã nguồn riêng. Mỗi VLIW trong lõi SIMD có thể có dữ liệu riêng để chúng tính toán các giá trị riêng biệt. Nhưng mỗi VLIW trong lõi SIMD thực hiện các hướng dẫn tương tự trong bước khóa với các VLIW khác trong lõi đó.
Vì vậy, thực sự, bạn chỉ có 320/4, hoặc 80 tổng số chủ đề. Nhưng một lần nữa, nó phụ thuộc vào loại "đơn vị song song" mà bạn đang nói đến. Về mặt kỹ thuật, 1600, 320 và 80 đều là những câu trả lời hợp pháp.
Và đó chỉ là một kiến trúc cụ thể . Dòng Fermi của NVIDIA (GeForce 4xx trở lên) sử dụng kiến trúc rất khác biệt. Dòng Cayman của ATI (Radeon 69xx) thay đổi VLIW 5 chiều thành VLIW 4 chiều. Kiến trúc tiếp theo của họ có thể có một số khác biệt đáng kể quá.
Không biết bạn đang tìm kiếm điều gì, không có cách nào để trả lời câu hỏi.