Thực tiễn tốt nhất để truyền dữ liệu giữa các cụm Hadoop


1

Tình huống: Tôi cần chuyển khoảng 100TB từ Cụm Hadoop cũ sang cụm Hadoop mới. Hai cụm có kết nối 1GbE trực tiếp từ nút tên trên mỗi cụm. Các nút dữ liệu không được kết nối.

Những gì tôi đã thử:

  • Distcp: Điều này không hoạt động vì các nút dữ liệu cũ và mới không được kết nối, nó sẽ báo cáo kết nối đã hết thời gian trên mỗi công việc mapreduce.
  • hdfs dfs -cp: Điều này hoạt động khá tốt cho đến nay, nhưng có xu hướng chậm lại và cuối cùng ngừng chuyển sau một vài giờ. Nó cũng không hỗ trợ nén hoặc khả năng khởi động lại tốt.

Điều tôi quan tâm:

  • Vì kết nối của tôi giữa Cụm 1 và Cụm 2 là nút cổ chai, tôi quan tâm đến việc tìm một công cụ cho phép tôi nén dữ liệu trên Cụm 1 gửi nó qua dây với rất ít chi phí (có thể là netcat?) Và giải nén nó trên Cụm 2 . Rsync sẽ hoàn hảo, nhưng tôi không chắc cách sử dụng giữa hai cụm Hadoop.
  • Các khuyến nghị khác mà tôi không quen thuộc.

Câu hỏi của tôi:

  • Những công cụ hoặc tập lệnh nào tôi có thể sử dụng để chuyển dữ liệu giữa Cụm 1 và Cụm 2 một cách hiệu quả với các giới hạn của tôi được liệt kê?
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.