Sự lựa chọn tốt nhất là phụ thuộc hệ thống. Vì vậy, những gì bạn muốn làm là chạy cả hai phiên bản trên một hệ thống thực, và sau đó kiểm tra xem hệ thống đáp ứng như thế nào. Bạn vẫn có thể sử dụng trình duyệt, trình soạn thảo văn bản, những thứ khác trên hệ thống của bạn chứ? Và hiệu suất có tốt hơn khi sử dụng n luồng chứ không phải n-1? Điều gì xảy ra nếu bạn chạy ứng dụng cùng với một ứng dụng khác cố gắng sử dụng tất cả các CPU?
Và sau đó bạn cần xem xét siêu phân luồng. Với bốn lõi cộng với siêu phân luồng, bạn có thể sử dụng 8 lõi hoặc 7 lõi. Một lần nữa, hãy thử khả năng đáp ứng của hệ thống và thời gian để hoàn thành.
Và cuối cùng, hãy xem xét việc chia công việc của bạn thành nhiều khối hơn các chủ đề. Lý do là các luồng khác nhau sẽ hoàn thành công việc vào các thời điểm khác nhau, và sau đó bạn muốn một số công việc còn lại để giao cho các luồng nhanh hơn. Nếu không, bạn sẽ phải đợi cho đến khi chuỗi cuối cùng kết thúc.
Tái bút "Siêu phân luồng không thể giúp với mã chuyên sâu của FPU vì chỉ có một FPU". Hoàn toàn sai. Điều cực kỳ khó khăn, ngay cả với mã chuyên sâu của FPU, để sử dụng đầy đủ FPU do độ trễ. Siêu phân luồng giúp vì có gấp đôi số hoạt động độc lập có sẵn để lập lịch.