Trong nhiều tình huống thực tế khi bạn áp dụng MapReduce, các thuật toán cuối cùng kết thúc là một số bước MapReduce.
tức là Map1, Giảm1, Map2, Giảm2, v.v.
Vì vậy, bạn có đầu ra từ mức giảm cuối cùng cần thiết làm đầu vào cho bản đồ tiếp theo.
Dữ liệu trung gian là thứ bạn (nói chung) không muốn giữ lại khi đường ống đã được hoàn thành thành công. Ngoài ra, vì dữ liệu trung gian này nói chung là một số cấu trúc dữ liệu (như 'bản đồ' hoặc 'bộ'), bạn không muốn mất quá nhiều công sức để viết và đọc các cặp giá trị khóa này.
Cách làm được đề nghị trong Hadoop là gì?
Có một ví dụ (đơn giản) chỉ ra cách xử lý dữ liệu trung gian này theo cách chính xác, bao gồm cả việc dọn dẹp sau đó không?