Hadoop là gì và nó được sử dụng để làm gì? [đóng cửa]


28

Tôi đã thích đọc ServerFault một thời gian và tôi đã bắt gặp khá nhiều chủ đề trên Hadoop. Tôi đã có một chút khó khăn để tìm hiểu những gì nó làm từ quan điểm toàn cầu.

Vì vậy, câu hỏi của tôi khá đơn giản: Hadoop là gì? Nó làm gì ? Cái này được dùng để làm gì ? Tại sao nó đá đít?

Chỉnh sửa: Nếu bất cứ ai tình cờ có các cuộc biểu tình / giải thích về các trường hợp sử dụng trong đó Hadoop đã được sử dụng, điều đó thật tuyệt vời.


Facebook sử dụng rất nhiều Hadoop (cũng thực sự là Hive, một lớp trên đầu Hadoop). Có một bài viết tốt về nó trên trang Facebook Engineering. facebook.com/note.php?note_id=89508453919
John Meagher

Hadoop là một khung làm cho việc xử lý một lượng lớn dữ liệu (Dữ liệu lớn ) trở nên đơn giản bằng cách phân phối các cụm dữ liệu giữa các nút / máy chủ và làm cho quá trình chạy song song. Quá trình / thuật toán này được gọi là MapReduce.
Mr_Green

Câu trả lời:


26

Thẳng từ miệng ngựa :

Hadoop là một khung để chạy các ứng dụng trên các cụm lớn được xây dựng bằng phần cứng hàng hóa. Khung Hadoop minh bạch cung cấp cho các ứng dụng cả độ tin cậy và chuyển động dữ liệu. Hadoop thực hiện một mô hình tính toán có tên là Map / Giảm, trong đó ứng dụng được chia thành nhiều phần nhỏ của công việc, mỗi phần có thể được thực thi hoặc được thực hiện lại trên bất kỳ nút nào trong cụm. Ngoài ra, nó cung cấp một hệ thống tệp phân tán (HDFS) lưu trữ dữ liệu trên các nút tính toán, cung cấp băng thông tổng hợp rất cao trên toàn cụm. Cả Map / Giảm và hệ thống tệp phân tán đều được thiết kế sao cho các lỗi nút được tự động xử lý bởi khung.

Map / Giảm là một mô hình lập trình được Google phổ biến trong đó một nhiệm vụ được chia thành các phần nhỏ và được phân phối cho một số lượng lớn các nút để xử lý (bản đồ) và sau đó kết quả được tóm tắt vào câu trả lời cuối cùng (giảm ). Google và Yahoo sử dụng điều này cho công nghệ công cụ tìm kiếm của họ, trong số những thứ khác.

Hadoop là một khung chung để thực hiện loại sơ đồ xử lý này. Về lý do tại sao nó đá đít, chủ yếu là vì nó cung cấp các tính năng gọn gàng như khả năng chịu lỗi và cho phép bạn tập hợp khá nhiều loại phần cứng để xử lý. Nó cũng có quy mô rất tốt, miễn là vấn đề của bạn phù hợp với mô hình.

Bạn có thể đọc tất cả về nó trên trang web .

Đối với một số ví dụ, Paul đã đưa ra một vài, nhưng đây là một vài điều nữa bạn có thể làm mà không phải là trung tâm web:

  • Kết xuất một bộ phim 3D. Bước "ánh xạ" phân phối hình học cho mỗi khung hình cho một nút khác nhau, các nút hiển thị nó và các khung được kết xuất được kết hợp lại trong bước "giảm".
  • Tính toán năng lượng trong một hệ thống trong mô hình phân tử. Mỗi khung của một quỹ đạo hệ thống được phân phối đến một nút trong bước "ánh xạ". Các nút tính toán năng lượng cho từng khung
    và sau đó kết quả được tóm tắt trong bước "giảm".

Về cơ bản, mô hình hoạt động rất tốt cho một vấn đề có thể được chia thành các tính toán rời rạc tương tự hoàn toàn độc lập và có thể được kết hợp lại để tạo ra kết quả cuối cùng.


Cảm ơn bạn vì câu trả lời. Vì vậy, về cơ bản, nó cần các ứng dụng (PHP? Java?) Và nó phá vỡ chúng và gửi công việc giữa một loạt các nút? Đối với HDFS, nó giống như OCFS ngoại trừ với một loạt các nút?
Antoine Benkemoun

Quan tâm đến aswell này. Tôi muốn xem một số ví dụ từ thực tế cụ thể hơn.
Karolis T.

Đó cũng là những gì tôi đang tìm kiếm :-)
Antoine Benkemoun

10

Cloudera có một số video tuyệt vời giải thích các nguyên tắc đằng sau Map Giảm và Hadoop.

http://www.cloudera.com/hadoop-training-basic

Một trong những ý tưởng cốt lõi đằng sau MapReduce là đối với các tập dữ liệu lớn, bạn sẽ bị ràng buộc trên các đĩa của mình, vì vậy, trong Hadoop HDFS cung cấp cho bạn khả năng phân chia mọi thứ giữa nhiều nút cho phép xử lý song song.

Một số cách sử dụng Hadoop quan tâm đối với các quản trị viên hệ thống thường xoay quanh việc xử lý các tập tin nhật ký lớn - Tôi chỉ có thể đăng một liên kết nhưng bao gồm, google nên tìm những điều sau:

  1. Truy vấn nhật ký thư Rackspace
  2. Phân tích nhật ký Apache với lợn - xem blog Cloudera
  3. Yahoo! chống thư rác

Trông thật tuyệt Tôi sẽ có một cái nhìn :-)
Antoine Benkemoun

1

Ban đầu hadoop được phát triển cho số lượng lớn các tập dữ liệu trong môi trường OLAP.

Với việc giới thiệu Hbase trên đỉnh hadoop, mía cũng được sử dụng để xử lý OLAP. Hadoop là một khung với tất cả các thành phần phụ như map map, hdfs, hbase, pig.

Ifound one bài viết với cơ bản của hadoop trong Why Hadoop được giới thiệu .

Trong Hadoop, lưu trữ dữ liệu ở dạng tệp, không phải trong bảng, cột.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.