Tại sao bộ xử lý Apple A12X có kết quả điểm chuẩn tốt hơn i7-4790T?


6

Trong máy trạm của tôi, tôi có một Intel i7-4790T mà tôi luôn nghĩ là một CPU khá nhanh. Nhưng theo Geekbench 4, bộ xử lý Apple A12X trong iPad Pro mới thoải mái đánh bại nó. Khi tôi chạy Geekbench 4, tôi nhận được tốc độ lõi đơn khoảng 4.000 nhưng trên iPad Pro mới , bộ xử lý A12X trả về khoảng 5.000 tức là nhanh hơn 25%. Trên thực tế, ngay cả A12 và A11 cũng nhiều hơn i7-4790T của tôi . Trong bài kiểm tra đa lõi, CPU của tôi đạt điểm tối đa 11.000 trong khi A12X đạt 18.000 điểm, nhanh hơn 60%.

Một câu hỏi sơ bộ là liệu Geekbench có phải là một chỉ số đáng tin cậy về tốc độ trong thế giới thực hay không. Ví dụ, điều duy nhất tôi làm thực sự nhấn mạnh CPU của tôi là chỉnh lại video bằng Handbrake . Handbrake không có sẵn cho iOS, nhưng giả sử nó đã được port thì Handbrake thực sự xử lý video nhanh hơn 60% trên A12X, hay điểm số của Geekbench không thể hiện bằng hiệu suất của thế giới thực?

Nhưng câu hỏi chính của tôi là: bỏ qua chính xác cách A12X và CPU của tôi so sánh, làm thế nào Apple quản lý để có được chip RISC dựa trên ARM nhanh như vậy? Những khía cạnh của kiến ​​trúc của nó chịu trách nhiệm cho tốc độ cao?

Sự hiểu biết của tôi về kiến ​​trúc RISC là chúng làm ít hơn trên mỗi chu kỳ đồng hồ nhưng thiết kế đơn giản của chúng có nghĩa là chúng có thể chạy ở tốc độ xung nhịp cao hơn. Nhưng A12X chạy ở tốc độ 2,5 GHz trong khi i7 của tôi có tốc độ cơ bản là 2,7 GHz và sẽ tăng lên 3,9 GHz khi tải lõi đơn. Vì vậy, i7 của tôi sẽ chạy ở tốc độ xung nhịp nhanh hơn 50% so với A12X, chip Apple có thể đánh bại nó như thế nào?

Từ những gì tôi có thể tìm thấy trên Internet, A12X có nhiều bộ đệm L2 hơn, 8MB so với 256KB (mỗi lõi) cho i7 của tôi, vì vậy đó là một sự khác biệt lớn. Nhưng bộ đệm L2 bổ sung này có thực sự tạo ra sự khác biệt lớn như vậy đối với hiệu suất không?

Phụ lục: Geekbench

Kiểm tra CPU Geekbench chỉ nhấn mạnh CPU và tốc độ bộ nhớ CPU. Các chi tiết chính xác về cách Geekbench thực hiện điều này được mô tả trong bản PDF này (136KB) . Các thử nghiệm dường như chính xác là những thứ chúng tôi làm sử dụng nhiều CPU và có vẻ như chúng thực sự là đại diện cho hiệu suất của Handbrake mà tôi đề xuất làm ví dụ.

Bảng phân tích chi tiết về kết quả Geekbench cho i7-4790T và A12X của tôi là:

Test            i7-4790T      A12X
Crypto            3870        3727
Integer           4412        5346
Floating Point    4140        4581
Memory Score      3279        5320

Câu trả lời:


11

A12X là một CPU khổng lồ được xây dựng trên công nghệ mới nhất, bỏ xa i7-4790T cũ hơn từ năm 2014.

Sự khác biệt đầu tiên là quy trình sản xuất: A12X là chip 7nm, trong khi i7-4790T Haswell-DT được chế tạo trên 22nm cũ. Các bóng bán dẫn nhỏ hơn có nghĩa là ít không gian hơn, công suất hoạt động ít hơn và tín hiệu nhanh hơn trên các đường chip ngắn hơn.

A12X có số lượng bóng bán dẫn khổng lồ 10 tỷ, trong khi i7-4790T chỉ có 1,4 tỷ.

Điều này cho phép A12X có sáu đường ống thực hiện số nguyên, trong đó hai đường dẫn là đơn vị phức tạp, hai đơn vị tải và lưu trữ, hai cổng nhánh và ba đường ống FP / vector, cho tổng số 13 cổng thực thi ước tính, nhiều hơn tám cổng cổng thực thi của kiến ​​trúc Haswell-DT.

Đối với kích thước bộ đệm, mỗi lõi chúng ta có trên A12: Mỗi lõi lớn có bộ đệm L1 là 128kB và bộ đệm L2 là 8MB. Mỗi lõi nhỏ có 32kB L1 và 2MB L2. Ngoài ra còn có thêm 8 MB $ SoC (cũng được sử dụng cho những thứ khác).

Kiến trúc Haswell có bộ đệm L1 64KB mỗi lõi, bộ đệm L2 256KB mỗi lõi và bộ đệm L3 của 2 con40 MB (chia sẻ).

Có thể thấy rằng A12X đánh bại i7-4790T trên tất cả các điểm và bằng một biên độ lớn.

Về kiến ​​trúc RISC vs CISC, đây hiện là điểm moot trên các bộ xử lý hiện đại. Cả hai kiến ​​trúc đã phát triển đến mức bây giờ chúng mô phỏng các tính năng của nhau ở một mức độ để giảm thiểu điểm yếu.

Tôi xin trích dẫn ở đây biểu đồ so sánh với CPU Xeon 8192, i7 6700k và AMD EPYC 7601, được biên soạn bởi Reddit (liên kết bên dưới), trong đó A12 so sánh tốt ngay cả với bộ xử lý máy tính để bàn:

hình ảnh

Nguồn:


1
7nm của TSMC tương đương với 10nm của Intel, do đó, đại diện cho "chỉ" một thế hệ dẫn hai quá trình. RISC / CISC không tạo ra sự khác biệt đáng chú ý trong kiến ​​trúc vi mô. RISC sẽ không có bộ đệm vi mã với các hướng dẫn sử dụng đáng kể (~ 90 bit mỗi op so với ~ 38 bit mỗi lệnh với tiền mã hóa đáng kể trong RISC Icache) để giảm độ trễ / năng lượng giải mã. Các thanh ghi bổ sung cũng có thể tăng hiệu suất 1-2%. Những lợi thế của RISC là nhỏ so với kiến ​​trúc vi mô và nhỏ bé so với công nghệ xử lý nhưng chúng khác không.
Paul A. Clayton

@ PaulA.Clayton cuộc tranh luận RISC / CISC hiện đại là vô ích. CPU ARM đã sử dụng microcode trong một thời gian dài. Các RISC có nhiều thanh ghi hơn đơn giản vì chúng không thể truy cập bộ nhớ theo các hướng dẫn thông thường. CPU CISC có thể có hàng trăm thanh ghi bên trong do đổi tên đăng ký. Và bạn lấy 90 và 38 bit đó ở đâu? Độ dài trung bình của các lệnh x86 chỉ hơn 2 byte
phuclv

@phuclv, bộ xử lý Intel đã sử dụng microcode, từ trước khi kiến ​​trúc ARM tồn tại trong các thiết bị người dùng. Microcode được triển khai sau lỗi Pentium. Đối với CISC / RISC, vi mã Intel xử lý bên trong các hướng dẫn CISC theo nhiều hướng dẫn RISC và đặt các đường ống dẫn chúng.
Strom

0

Bạn đang so sánh các kiến ​​trúc rất khác nhau giữa A12X và Haswell (Intel i7-4790T) và các số điểm chuẩn không thể so sánh trực tiếp, vì hai bộ xử lý không thể so sánh trực tiếp.

Hiểu ý nghĩa của một bài kiểm tra cụ thể là hữu ích trong việc cố gắng hiểu ý nghĩa của các con số. Vượt qua bài kiểm tra băng ghế dự bị của bạn, hãy bắt đầu ở dòng cuối cùng.

Theo các bài kiểm tra GeekBench của bạn, băng thông bộ nhớ giữa A12X và chip haswell bị sai lệch nhiều. A12X có hiệu năng bộ nhớ gấp đôi. Trong khi các bài kiểm tra Bộ nhớ thường kết hợp hai mục không liên quan, độ trễ và băng thông, A12X là người chiến thắng rõ ràng ở đây.

Mục tiếp theo là hiệu suất điểm nổi. Thử nghiệm này đang cố gắng so sánh mã được tối ưu hóa tay giữa các kiến ​​trúc khác nhau. Mặc dù các con số có thể bị sai lệch bởi chất lượng của các tối ưu hóa, đây có thể là một sân bóng tốt cho hiệu suất tổng thể của FPU và có thể so sánh trực tiếp. Ở đây hai bộ xử lý có kết quả tương tự nhau.

Thử nghiệm ít hữu ích nhất là thử nghiệm có nhãn hiệu suất nguyên. Đó không phải là hiệu suất số nguyên theo nghĩa số học, nó là một tập hợp các khối lượng công việc chung không phải của FPU. Các thử nghiệm này có ý nghĩa ở chỗ chúng hiển thị hiệu suất ứng dụng trên nền tảng, nhưng chúng không có ý nghĩa khi nói rằng bộ xử lý A tốt hơn bộ xử lý B vì chúng hơi nhạy cảm với hiệu suất bộ nhớ.

Cuối cùng là tải công việc Crypto. Điều này có ý nghĩa trong bản tóm tắt, mặc dù thử nghiệm cụ thể có thể không hữu ích. Tiền điện tử hiệu suất cao nên sử dụng AES-GCM chứ không phải AES-CTR, loại tiền điện tử thứ hai cũng không cho vay để tăng tốc phần cứng. Đây cũng là một điểm chuẩn cụ thể của miền.

Nếu tôi cố gắng nói điều gì đó thông minh về những con số cụ thể đó, hãy thử điều này;

  • A12X có băng thông bộ nhớ được cải thiện đáng kể. Điều này một phần là do bộ nhớ máy tính để bàn dường như tụt hậu so với các công nghệ bộ nhớ hiện tại, nhưng cũng vì hiệu suất bộ nhớ đã được cải thiện trong năm năm.
  • A12X có hiệu năng FPU trên mỗi lõi tốt hơn một chút so với i7-4790T.
  • A12X sẽ chạy tải công việc chung tương tự hoặc nhanh hơn i7-4790T.
  • A12X tốt hơn nhiều trong tải công việc cụ thể của miền vì nó cung cấp hỗ trợ phần cứng cho các hướng dẫn mới và khác nhau, phản ánh tốt hơn nhu cầu của thiết bị máy tính bảng / tế bào.

Rút ra kết luận lớn hơn dựa trên những con số đó, hoặc đưa ra tuyên bố kiến ​​trúc dựa trên những con số đó có lẽ là không khôn ngoan.

Đối với một so sánh kiến ​​trúc chung, RISC so với CISC không còn có ý nghĩa vì cả hai tập lệnh được giải mã thành các vi lệnh xác định cách phân phối khối lượng công việc. So sánh hoàn toàn dựa trên các cổng thực thi có lẽ không có ý nghĩa đặc biệt vì đó là các khối xây dựng cấp cao không thể so sánh trực tiếp.

Bộ nhớ cache là một số lượng quan trọng đóng góp trực tiếp vào hiệu suất của bộ xử lý, nhưng nó cũng rất phức tạp. Cách chia sẻ bộ đệm giữa kiến ​​trúc intel và A12X là hoàn toàn khác nhau. Nói chung, có nhiều bộ đệm hơn sẽ tốt hơn, nhưng điều quan trọng là sự liên kết bộ đệm ảnh hưởng đến cách các ứng dụng luồng có thể chia sẻ dữ liệu giữa các lõi.

Cuối cùng, bộ xử lý cần phải làm việc cho khối lượng công việc của bạn. Mặc dù A12X có thể hỗ trợ khối lượng công việc của máy tính để bàn vào một thời điểm nào đó trong tương lai, nhưng i7 v4 hỗ trợ nó ngay bây giờ và điều đó làm cho nó trở thành một lựa chọn ưu việt cho bộ xử lý máy tính để bàn mặc dù nó lớn hơn A12X bốn đến năm năm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.