Tôi đã nghe nói về nhiều công cụ / khung để giúp mọi người xử lý dữ liệu của họ (môi trường dữ liệu lớn).
Một cái được gọi là Hadoop và cái còn lại là khái niệm noQuery. Sự khác biệt trong điểm xử lý là gì?
Họ có bổ sung không?
Tôi đã nghe nói về nhiều công cụ / khung để giúp mọi người xử lý dữ liệu của họ (môi trường dữ liệu lớn).
Một cái được gọi là Hadoop và cái còn lại là khái niệm noQuery. Sự khác biệt trong điểm xử lý là gì?
Họ có bổ sung không?
Câu trả lời:
Hadoop không phải là cơ sở dữ liệu , hadoop là toàn bộ hệ sinh thái.
Hầu hết mọi người sẽ đề cập đến các công việc mapreduce trong khi nói về hadoop. Một công việc mapreduce chia các bộ dữ liệu lớn trong một số khối dữ liệu nhỏ và trải chúng trên một cụm các nút để tiến hành. Cuối cùng, kết quả từ mỗi nút sẽ được đặt lại với nhau dưới dạng một tập dữ liệu.
Giả sử bạn tải vào một nhóm <String, Integer>
với dân số của một số khu phố trong thành phố và bạn muốn có được dân số trung bình trên toàn bộ khu phố của mỗi thành phố (hình 1).
Hình 1
[new york, 40394]
[new york, 134]
[la, 44]
[la, 647]
...
Bây giờ hadoop trước tiên sẽ ánh xạ từng giá trị bằng cách sử dụng các phím (hình 2)
Hình 2
[new york, [40394,134]]
[la, [44,647]]
...
Sau khi ánh xạ, nó sẽ giảm các giá trị của mỗi khóa thành một giá trị mới (trong ví dụ này là giá trị trung bình trên tập giá trị của mỗi khóa) (hình 3)
hình 3
[new york, [20264]]
[la, [346]]
...
bây giờ hadoop sẽ được thực hiện với tất cả mọi thứ. Bây giờ bạn có thể tải kết quả vào HDFS (hệ thống tệp phân tán hadoop) hoặc vào bất kỳ DBMS hoặc tệp nào.
Đó chỉ là một ví dụ rất cơ bản và đơn giản về những gì hadoop có thể làm. Bạn có thể chạy các nhiệm vụ phức tạp hơn nhiều trong hadoop.
Như bạn đã đề cập trong câu hỏi của mình, hadoop và noQuery là bổ sung. Tôi biết một vài thiết lập trong đó có hàng tỷ bộ dữ liệu từ các cảm biến được lưu trữ trong HBase và sau đó thông qua hadoop để cuối cùng được lưu trữ trong DBMS.
NoQuery là một cách để lưu trữ dữ liệu không yêu cầu phải có một số loại quan hệ. Sự đơn giản của thiết kế và khả năng tỷ lệ ngang của nó, một cách họ lưu trữ dữ liệu là key : value
thiết kế cặp. Điều này cho vay để xử lý tương tự như Hadoop. Việc sử dụng db NoQuery thực sự phụ thuộc vào loại sự cố xảy ra sau đó.
Đây là một liên kết wikipedia tốt NoQuery
Hadoop là một hệ thống có nghĩa là lưu trữ và xử lý khối dữ liệu khổng lồ. Nó là một hệ thống tập tin dfs phân tán. Lý do nó làm điều này là vì trung tâm của thiết kế của nó, nó đưa ra giả định rằng các lỗi phần cứng là phổ biến, do đó tạo ra nhiều bản sao của cùng một thông tin và lan truyền nó trên nhiều máy và giá đỡ, vì vậy, nếu một sự cố xảy ra, không có vấn đề gì, chúng tôi có thêm hai bản. Đây là một liên kết tuyệt vời cho Hadoop từ wikipedia, bạn sẽ thấy rằng, theo tôi, không chỉ là lưu trữ, mà còn xử lý: Hadoop