Thẳng từ miệng ngựa :
Hadoop là một khung để chạy các ứng dụng trên các cụm lớn được xây dựng bằng phần cứng hàng hóa. Khung Hadoop minh bạch cung cấp cho các ứng dụng cả độ tin cậy và chuyển động dữ liệu. Hadoop thực hiện một mô hình tính toán có tên là Map / Giảm, trong đó ứng dụng được chia thành nhiều phần nhỏ của công việc, mỗi phần có thể được thực thi hoặc được thực hiện lại trên bất kỳ nút nào trong cụm. Ngoài ra, nó cung cấp một hệ thống tệp phân tán (HDFS) lưu trữ dữ liệu trên các nút tính toán, cung cấp băng thông tổng hợp rất cao trên toàn cụm. Cả Map / Giảm và hệ thống tệp phân tán đều được thiết kế sao cho các lỗi nút được tự động xử lý bởi khung.
Map / Giảm là một mô hình lập trình được Google phổ biến trong đó một nhiệm vụ được chia thành các phần nhỏ và được phân phối cho một số lượng lớn các nút để xử lý (bản đồ) và sau đó kết quả được tóm tắt vào câu trả lời cuối cùng (giảm ). Google và Yahoo sử dụng điều này cho công nghệ công cụ tìm kiếm của họ, trong số những thứ khác.
Hadoop là một khung chung để thực hiện loại sơ đồ xử lý này. Về lý do tại sao nó đá đít, chủ yếu là vì nó cung cấp các tính năng gọn gàng như khả năng chịu lỗi và cho phép bạn tập hợp khá nhiều loại phần cứng để xử lý. Nó cũng có quy mô rất tốt, miễn là vấn đề của bạn phù hợp với mô hình.
Bạn có thể đọc tất cả về nó trên trang web .
Đối với một số ví dụ, Paul đã đưa ra một vài, nhưng đây là một vài điều nữa bạn có thể làm mà không phải là trung tâm web:
- Kết xuất một bộ phim 3D. Bước "ánh xạ" phân phối hình học cho mỗi khung hình cho một nút khác nhau, các nút hiển thị nó và các khung được kết xuất được kết hợp lại trong bước "giảm".
- Tính toán năng lượng trong một hệ thống trong mô hình phân tử. Mỗi khung của một quỹ đạo hệ thống được phân phối đến một nút trong bước "ánh xạ". Các nút tính toán năng lượng cho từng khung
và sau đó kết quả được tóm tắt trong bước "giảm".
Về cơ bản, mô hình hoạt động rất tốt cho một vấn đề có thể được chia thành các tính toán rời rạc tương tự hoàn toàn độc lập và có thể được kết hợp lại để tạo ra kết quả cuối cùng.