Apache Beam hỗ trợ nhiều phụ trợ Á hậu, bao gồm Apache Spark và Flink. Tôi quen thuộc với Spark / Flink và tôi đang cố gắng xem ưu / nhược điểm của Beam để xử lý hàng loạt.
Nhìn vào ví dụ đếm từ Beam , có cảm giác nó rất giống với các từ tương đương Spark / Flink bản địa, có thể với cú pháp dài dòng hơn một chút.
Tôi hiện không thấy lợi ích lớn của việc chọn Beam qua Spark / Flink cho một nhiệm vụ như vậy. Những quan sát duy nhất tôi có thể thực hiện cho đến nay:
- Pro: Tính trừu tượng trên các phụ trợ thực thi khác nhau.
- Con: Sự trừu tượng này phải trả giá bằng việc kiểm soát ít hơn những gì chính xác được thực thi trong Spark / Flink.
Có ví dụ nào tốt hơn nêu bật những ưu / nhược điểm khác của mô hình Beam không? Có bất kỳ thông tin nào về việc mất kiểm soát ảnh hưởng đến hiệu suất như thế nào không?
Lưu ý rằng tôi không yêu cầu sự khác biệt trong các khía cạnh phát trực tuyến, một phần được đề cập trong câu hỏi này và được tóm tắt trong bài viết này (lỗi thời do Spark 1.X).