Lỗi xếp tầng trong Bão tố Apache

Xem qua phần trình bày và tài liệu về Summingbird của Twitter, một trong những lý do được đề cập đến khi sử dụng các cụm Storm và Hadoop cùng nhau trong Summingbird là việc xử lý thông qua Storm dẫn đến xếp tầng lỗi. Để tránh xếp tầng lỗi và tích lũy của nó, cụm Hadoop được sử dụng để xử lý hàng loạt dữ liệu và loại bỏ kết quả Storm sau khi dữ liệu tương tự được Hadoop xử lý.

Các lý do cho việc tạo ra sự tích lũy lỗi này là gì? và tại sao nó không có trong Hadoop? Vì tôi chưa làm việc với Storm, tôi không biết lý do cho việc đó. Có phải vì Storm sử dụng một số thuật toán gần đúng để xử lý dữ liệu để xử lý chúng trong thời gian thực? hoặc là nguyên nhân cái gì khác?

bigdata apache-hadoop

— mbbce
nguồn

Twitter sử dụng Storm để xử lý dữ liệu theo thời gian thực. Vấn đề có thể xảy ra với dữ liệu thời gian thực. Hệ thống có thể đi xuống. Dữ liệu có thể vô tình được xử lý hai lần. Kết nối mạng có thể bị mất. Rất nhiều điều có thể xảy ra trong một hệ thống thời gian thực.

Họ sử dụng hadoop để xử lý dữ liệu lịch sử một cách đáng tin cậy. Tôi không biết chi tiết cụ thể, nhưng ví dụ, nhận thông tin chắc chắn từ nhật ký tổng hợp có lẽ đáng tin cậy hơn so với việc gắn vào luồng.

Nếu họ chỉ đơn giản dựa vào Storm cho mọi thứ - Storm sẽ gặp vấn đề do bản chất cung cấp thông tin theo thời gian thực ở quy mô. Nếu họ dựa vào hadoop cho tất cả mọi thứ, có rất nhiều độ trễ liên quan. Kết hợp cả hai với Summingbird là bước hợp lý tiếp theo.

— Steve Kallestad
nguồn