Một trong những ví dụ chính được sử dụng để chứng minh sức mạnh của MapReduce là điểm chuẩn Terasort . Tôi gặp khó khăn khi hiểu những điều cơ bản về thuật toán sắp xếp được sử dụng trong môi trường MapReduce.
Đối với tôi, việc sắp xếp chỉ đơn giản là xác định vị trí tương đối của một phần tử trong mối quan hệ với tất cả các phần tử khác. Vì vậy, sắp xếp liên quan đến việc so sánh "mọi thứ" với "mọi thứ". Thuật toán sắp xếp trung bình của bạn (nhanh chóng, bong bóng, ...) chỉ đơn giản thực hiện điều này một cách thông minh.
Theo suy nghĩ của tôi, chia tập dữ liệu thành nhiều phần có nghĩa là bạn có thể sắp xếp một phần duy nhất và sau đó bạn vẫn phải tích hợp các phần này vào tập dữ liệu được sắp xếp đầy đủ 'hoàn chỉnh'. Với tập dữ liệu terabyte được phân phối trên hàng nghìn hệ thống, tôi kỳ vọng đây sẽ là một nhiệm vụ lớn.
Vậy thực hư việc này như thế nào? Thuật toán sắp xếp MapReduce này hoạt động như thế nào?
Cảm ơn đã giúp tôi hiểu.