Giả sử bạn có nhật ký của một máy chủ web. Trong các bản ghi này, bạn có bộ dữ liệu loại này:
user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...
Những dấu thời gian này đại diện cho các nhấp chuột của người dùng. Bây giờ, user1
sẽ truy cập trang web nhiều lần (phiên) trong tháng và bạn sẽ có hàng loạt nhấp chuột từ mỗi người dùng trong mỗi phiên (giả sử rằng khi người dùng truy cập trang web của bạn, anh ta sẽ nhấp vào nhiều trang).
Giả sử bạn muốn phân vùng các lần nhấp này trong các phiên đã tạo ra chúng, nhưng bạn không có bất kỳ nguồn thông tin bổ sung nào, chỉ có danh sách dấu thời gian. Nếu bạn tính toán phân phối các khoảng giữa hai lần nhấp tiếp theo từ cùng một người dùng, bạn sẽ có được phân phối dài hạn. Theo trực giác, bạn sẽ tìm kiếm một "tham số cắt", ví dụ N giây, trong đó nếu timestamp_{i+1} - timestamp{i} > N
, thì đó timestamp_{i+1}
là khởi đầu của phiên mới.
Vấn đề là phân phối này trong thực tế là hỗn hợp của hai biến: X = "khoảng giữa hai lần nhấp hệ quả trong cùng một phiên" và Y = "khoảng giữa lần nhấp cuối cùng của phiên trước và lần đầu tiên của lần mới".
Câu hỏi là, làm thế nào để ước tính N này, phân chia hai phân phối (với một chút trùng lặp, có thể) chỉ bằng cách nhìn vào sự bùng nổ của các nhấp chuột?