Phân chia và chinh phục các thuật toán luồng dữ liệu


12

Những thuật toán hữu ích nào tồn tại hoạt động trên các luồng dữ liệu khổng lồ và kết quả của chúng khá nhỏ và người ta có thể tính kết quả cho một hỗn hợp hai luồng bằng cách nào đó hợp nhất kết quả của chúng?

Tôi có thể kể tên một vài:

  • Những thứ rõ ràng như sum, min, max, Count, top-K, v.v.
  • Các thuật toán luồng được gọi là "dựa trên phác thảo" gần đúng cho biểu đồ, đếm các mục riêng biệt hoặc lượng tử tính toán

Những gì người khác đang có?

(Tôi quan tâm vì tôi đang viết một dự án sở thích để giám sát các hệ thống phân tán có tính hữu ích được xác định trực tiếp bởi tính hữu ích của các thuật toán đó)


Tôi thấy khó khăn hơn nhiều khi nghĩ về bất kỳ thuật toán phát trực tuyến nào không "phân chia và chinh phục" / kết hợp. Có thể một số loại hàm băm lăn ... Bạn có bất kỳ ví dụ tự nhiên nào về thuật toán luồng như vậy không?
Thomas Ahle

Câu trả lời:


9

Guha và cộng sự. '03 đưa ra thuật toán xấp xỉ cho phân cụm k-median trong mô hình truyền phát. Thuật toán của họ chia dữ liệu thành các phần rời rạc, tìm trung tâm O (k) cho mỗi phần tách rời và sau đó kết hợp các kết quả để có được các trung tâm k. Đây dường như là loại thuật toán bạn đang tìm kiếm.


7

Bài báo của Bagchi, Chaudhary, Eppstein và Goodrich giải quyết một số vấn đề hình học trực tuyến bằng cách sử dụng chương trình con cơ bản để tính toánεεTôithứ tự(Tôi-1)thứ tựluồng -level và mức 0 là luồng ban đầu). Đây thực chất là một kết xuất từ ​​dưới lên của một chiến lược phân chia và chinh phục. với các cập nhật dọc theo "cạnh" của cây đệ quy. Về cấu trúc, nó rất giống với bài báo Guha et al được đề cập bởi Lev.


6

Tôi đã tìm thấy một bài báo ( "Phân phối tính toán luồng dữ liệu phụ thuộc tần số" ) nói rằng mọi chức năng phân phối tần số của luồng đều có thể kết hợp được (mặc dù nó không cung cấp một cấu trúc rõ ràng và hiệu quả cho hoạt động hợp nhất). Và bằng chứng dường như rất thú vị, liên quan đến một số lý thuyết vòng. Cần đọc bài báo trước của cùng một tác giả ( "Giới hạn thấp hơn về ước tính tần số của luồng dữ liệu" ) có kết quả chính được sử dụng làm cơ sở cho bài viết này.

Điều này làm tôi nhớ đến Định lý đồng cấu thứ ba ...


Tôi không nghĩ rằng bài báo Ganguly ngụ ý rằng chiến lược phân chia và chinh phục có thể hoạt động để phát trực tuyến. Mô hình đó dường như giảm xuống mô hình Mapreduce / MUD, trong đó có thể có nhiều lần truyền dữ liệu.
Suresh Venkat

Khi đọc, có vẻ như tôi không sử dụng nhiều lượt.
jkff

4

Nghiên cứu về các ngôn ngữ truy vấn luồng liên tục có thể cung cấp một số cái nhìn sâu sắc. Một ngôn ngữ như vậy là CQL , mà tôi tin rằng đang được Oracle áp dụng. Các ngôn ngữ cho phép các chức năng được tính toán trên các cửa sổ trượt của luồng (bao gồm các cửa sổ có kích thước 1). Luận án cử nhân này cung cấp một cái nhìn tổng quan gần đây về ngôn ngữ, bao gồm một số ví dụ. Bài viết này cung cấp một cái nhìn tổng quan về một số ngôn ngữ xử lý luồng, sẽ hữu ích cho việc tìm kiếm các liên kết đến nghiên cứu liên quan khác.

Tôi biết rằng điều này không trả lời trực tiếp câu hỏi của bạn, nhưng nó sẽ giúp bạn liên lạc với nghiên cứu được thực hiện bởi những người khởi hành từ cùng một điểm xuất phát.


4

Câu hỏi này có vẻ hơi tròn với tôi. Nếu vấn đề có thuộc tính bạn muốn, thì có một thuật toán dựa trên phác thảo và hợp nhất cho nó. Như đã đề cập ở trên, có công việc phân cụm, xấp xỉ và lõi cung cấp cho bạn điều đó. Ngoài ra, hầu hết các thuật toán phát trực tuyến cho phép hợp nhất các luồng chỉ bằng cách (theo khái niệm) nối liền một luồng với luồng khác.

Ngoài ra, tôi không chắc các thuật toán phát trực tuyến top-k có thể kết hợp được - nhưng tôi có thể sai.


Top-k có thể hợp nhất một cách tầm thường: để hợp nhất hai danh sách các mục k, bạn hợp nhất chúng và lấy k mục cuối cùng của kết quả :) Tuy nhiên, có lẽ bạn có nghĩa là "top k thường xuyên nhất", nhưng ý tôi là cái này (cũng là một vấn đề hữu ích, ví dụ, đối với tính toán phân tán của một cái gì đó như tường facebook)
jkff

3

Xin lỗi vì đã khắc phục điều này, nhưng tôi nghĩ rằng bạn có thể muốn xem xét một số công việc về giám sát liên tục phân tán trên các luồng, nơi bạn được cung cấp một số luồng và mục tiêu là theo dõi một số thống kê tổng hợp tại một trang web giám sát trung tâm trong khi giảm thiểu giao tiếp. Mô hình âm thanh với tôi liên quan chặt chẽ đến động lực của bạn. Nhìn vào các tài liệu tham khảo trong cuốn sách của Muthu . Một tờ giấy là đây .

Giấy của Ganguly cũng rất thú vị.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.