Nvidia K20X vs GeForce Titan để tăng tốc GPGPU


10

Tôi đang cố gắng để hiểu sự khác biệt giữa hai card đồ họa này cho máy tính học thuật, đặc biệt là cho thành phần DGEMM.

Nếu chúng ta nhìn vào số liệu thống kê thô, cả hai đều có cùng chip GK110, có số liệu thống kê tương đương trong hầu hết mọi danh mục, và, tôi tin rằng, có cùng kiến ​​trúc cốt lõi. Trước khi giảm giá, K20X có giá gấp khoảng một lần Titan. Từ góc độ hiệu quả, dường như rất có ý nghĩa khi sử dụng Titan trên K20X.

Tôi đang có một thời gian khó khăn để hiểu sự khác biệt ở đây, bất cứ ai có thể làm sáng tỏ tình hình?

Như một lưu ý, tôi đang xem xét việc mua các thẻ này cho một máy chủ rack và chạy ở chế độ nghiêng hoàn toàn cho đến khi chúng chết; tuy nhiên, tôi không xem hiệu quả của việc sử dụng nhiều GPU cho một công việc là đặc biệt quan trọng.

Câu trả lời:


13

Có một số khác biệt, tuy nhiên chúng không nhất thiết phải ở phần cứng hoặc thông số kỹ thuật. Lưu ý rằng đây là tất cả thông tin tôi có được từ các diễn đàn hoặc bản tin, vì vậy hãy lấy tất cả bằng một hạt muối.

Đầu tiên là "khả năng mở rộng và độ tin cậy" ( nguồn ). K20 được thiết kế để ngồi trong một hệ thống cụm và chạy ở chế độ nghiêng hoàn toàn 24/7. Titan được thiết kế nhiều hơn để chơi game, vì vậy nó sẽ chạy ở chu kỳ nhiệm vụ này, nhưng nó có thể phải chịu các vấn đề dài hạn suốt đời nếu được sử dụng theo cách này.

Các trình điều khiển cũng khác nhau, tuy nhiên tôi không chắc chắn về sự khác biệt lớn. Sự khác biệt về trọng tâm của thiết kế thẻ có thể dẫn đến tăng hiệu suất tương đối nhỏ cho thẻ Tesla ở mặt trước này.

"Một số tính năng độc quyền của Tesla bao gồm:

  • NVIDIA GPUDirect RDMA cho hiệu năng InfiniBand
  • Hyper-Q cho MPI (Hyper-Q cho CUDA Streams được hỗ trợ trên GeForce GTX TITAN)
  • Bảo vệ ECC cho tất cả các thanh ghi và bộ nhớ trong và ngoài
  • Các công cụ được hỗ trợ để quản lý GPU và cụm, chẳng hạn như Điện toán Sáng, Ganglia. "( Nguồn )

Điều này chỉ ra thực tế rằng sự khác biệt chính là khả năng mở rộng của chúng. Nếu bạn đang tìm cách chạy trên máy tính để bàn trong văn phòng của bạn, sẽ khó có thể tranh cãi với Titan so với K20 về chênh lệch giá. Nếu bạn cần hiệu suất bổ sung của nhiều K20, hãy tìm cho mình một trung tâm HPC và mua thời gian với máy chủ của họ.

Biên tập:

Sau khi tìm hiểu thêm một chút về ECC, tôi đang cập nhật câu trả lời này để chỉ ra ý nghĩa của việc có nó trên K20 chứ không phải trên Titan. Các thông tin sau đây là một cách diễn đạt thông tin được tìm thấy ở đây .

ECC đang kiểm tra lỗi trên DRAM và các thanh ghi cho GPU. Lỗi mềm là khi một bit được chuyển / lưu trữ không chính xác. Các mạch càng nhanh và càng gần nhau thì khả năng xảy ra lỗi mềm càng cao. Nếu bạn đang giải quyết một tập hợp các ODE được ghép nối hoặc giải một hệ thống tuyến tính, một số bị tắt một bit có thể thay đổi đáng kể kết quả theo cách không thể lặp lại. Hầu hết RAM và bộ nhớ cache tiêu chuẩn trong CPU đều được kiểm tra lỗi cho các lỗi này bằng ECC.

Mặt khác, GPU, nói chung, không có ECC mặc dù bus bộ nhớ của chúng nhanh hơn nhiều so với CPU. Điều này là do nếu một pixel trên màn hình bị tắt một chút cho một khung hình, chất lượng của chương trình không bị giảm. Những lỗi này cũng không propogate. Do đó, rất nhiều bất động sản chip (và chi phí) có thể được lưu bằng cách bỏ qua tính năng này. Sự phức tạp thêm này có thể gây ra một phần lớn chi phí thêm của dòng Tesla.


3
Câu trả lời tuyệt vời +1! Thật khó để tin rằng những tính năng đó là tốn kém. Tôi nghĩ rằng dòng "Phát triển với GeForce, Triển khai với Tesla" từ trang web Nvidia được liên kết tổng hợp các vấn đề quan trọng. Có vẻ như giải pháp tốt nhất bây giờ là mua một vài GeForces và chạy chúng thật mạnh cho đến khi họ từ bỏ làn khói xanh để nói.
Ophion

3
"Tuy nhiên, điều này không ngăn họ sử dụng tại Oakridge." OLCF của Cray XK7 tên "Titan" sử dụng Tesla K20 GPU, không phải là GTX Titan. NVidia nói rằng GTX Titan có "công nghệ" OLCF Titan, đây là từ vựng tương tự được sử dụng khi nói rằng một chiếc xe kinh tế có "công nghệ" của một chiếc xe Công thức 1. (Hiệu suất GTX Titan khá tốt, nhưng nó không có ECC và không được sử dụng trong bất kỳ cài đặt chính nào mà tôi biết.)
Jed Brown

1
Sai lầm của tôi, tôi giải thích sai bài viết. Tôi sẽ cập nhật câu trả lời để không gây hiểu lầm.
Godric Seer

2

Theo tôi sự khác biệt dường như chủ yếu là phân khúc thị trường. Nếu bạn là một nhà khoa học thì NVidia muốn bạn sợ rằng bài báo của bạn sẽ bị từ chối vì bạn đang sử dụng GPGPU mà không có nhiều lỗi sửa RAM như có sẵn với K20X. Tương tự như vậy nếu bạn là một công ty thì bạn có thể muốn trả 4 lần nếu điều đó có nghĩa là bạn sẽ ít bị kiện vì nghi ngờ rằng các tính toán của bạn không được sửa lỗi nhiều nhất có thể. Các game thủ cá nhân hoặc GPGPUers sở thích được bán Titan vì họ có ít tiền hơn và họ khó thuyết phục theo những cách này.


2
Tôi chỉ chạy các tính toán với ECC, bạn có tình cờ có một bài viết hay chứng minh sự thất bại của các hệ thống không phải ECC và các điểm dừng logic mà nó có lợi không?
Ophion


Đối với những người muốn bản tóm tắt điều hành liên kết rất xuất sắc của BenC: các lỗi mềm mà ECC sẽ khắc phục là cực kỳ hiếm, và bài báo đã đề xuất tắt ECC trên Tesla để tăng tốc độ. Hãy cẩn thận: điều này không thực sự được thử nghiệm với GPU tiêu dùng.
bán ngoài

0

Nó thực sự phụ thuộc vào ứng dụng bạn chạy. GPUGRID.net chạy trên các máy không có ECC và mọi thứ đều ổn. Kết quả tốt như trên bất kỳ nền tảng nào khác. Acellera cũng bán phần cứng với thẻ GeForce và chỉ trong một vài trường hợp GPU đã thất bại. GeForce là tất cả những gì bạn cần.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.