Phân phối dài các sự kiện thời gian


10

Giả sử bạn có nhật ký của một máy chủ web. Trong các bản ghi này, bạn có bộ dữ liệu loại này:

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

Những dấu thời gian này đại diện cho các nhấp chuột của người dùng. Bây giờ, user1sẽ truy cập trang web nhiều lần (phiên) trong tháng và bạn sẽ có hàng loạt nhấp chuột từ mỗi người dùng trong mỗi phiên (giả sử rằng khi người dùng truy cập trang web của bạn, anh ta sẽ nhấp vào nhiều trang).

Giả sử bạn muốn phân vùng các lần nhấp này trong các phiên đã tạo ra chúng, nhưng bạn không có bất kỳ nguồn thông tin bổ sung nào, chỉ có danh sách dấu thời gian. Nếu bạn tính toán phân phối các khoảng giữa hai lần nhấp tiếp theo từ cùng một người dùng, bạn sẽ có được phân phối dài hạn. Theo trực giác, bạn sẽ tìm kiếm một "tham số cắt", ví dụ N giây, trong đó nếu timestamp_{i+1} - timestamp{i} > N, thì đó timestamp_{i+1}là khởi đầu của phiên mới.

Vấn đề là phân phối này trong thực tế là hỗn hợp của hai biến: X = "khoảng giữa hai lần nhấp hệ quả trong cùng một phiên" và Y = "khoảng giữa lần nhấp cuối cùng của phiên trước và lần đầu tiên của lần mới".

Câu hỏi là, làm thế nào để ước tính N này, phân chia hai phân phối (với một chút trùng lặp, có thể) chỉ bằng cách nhìn vào sự bùng nổ của các nhấp chuột?


Khi bạn nói "chỉ bằng cách nhìn vào số lần nhấp", bạn có nghĩa là bạn không thể tính toán bất cứ thứ gì ngoài N?
jerad

Ý tôi là bạn không có bất kỳ nguồn thông tin bổ sung nào ngoài các bộ dữ liệu (người dùng, dấu thời gian). Phương thức dựa trên ngưỡng (dựa trên delta> N) chỉ là một ví dụ về phương thức. Có lẽ một cái gì đó khác là có thể.
marcorossi

Câu trả lời:


2

Bạn thực sự nên vẽ biểu đồ logarit của các khoảng thời gian nhấp chuột thay vì các giá trị thô; điều này sẽ làm phẳng phân phối của bạn và thậm chí có thể tiết lộ nhiều chế độ trong phân phối của bạn.

Các phương pháp tiên tiến hơn đã được phát triển bởi các nhà thần kinh học để giải quyết một vấn đề rất giống nhau trong việc xác định các đợt bùng phát của các nơ-ron thần kinh. Bài viết kinh điển này hoặc nhiều bài báo liên quan khác trên học giả google .


Tôi đã in loglog của phân phối. Đó là một đường thẳng. Làm thế nào mà giúp đỡ mặc dù? Bạn sẽ nhìn gì? Các tài liệu tham khảo cho bài viết là tuyệt vời, cảm ơn.
marcorossi

Điều gì về cốt truyện xác suất đăng nhập? tức là chỉ lấy nhật ký của các tần số, không phải các khoảng. Điều đó tiết lộ hai chế độ?
jerad
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.