Như Jimmy Lin và Chris Dyer đã chỉ ra trong chương đầu tiên trong cuốn sách về Khai thác văn bản chuyên sâu dữ liệu với MapReduce , ở quy mô dữ liệu lớn, hiệu suất của các thuật toán khác nhau hội tụ sao cho sự khác biệt về hiệu suất gần như biến mất. Điều này có nghĩa là với một tập dữ liệu đủ lớn, thuật toán bạn muốn sử dụng là thuật toán ít tốn kém hơn về mặt tính toán. Chỉ ở quy mô dữ liệu nhỏ hơn mà sự khác biệt hiệu năng giữa các thuật toán là quan trọng.
Điều đó đang được nói, cuốn sách của họ (được liên kết ở trên) và Khai thác dữ liệu khổng lồ của Anand Rajaraman, Jure Leskovec và Jeffrey D. Ullman có lẽ là hai cuốn sách bạn sẽ muốn xem, đặc biệt là khi chúng liên quan trực tiếp đến MapReduce cho mục đích khai thác dữ liệu.