Gần đây tôi đã tham gia vào lĩnh vực học máy và một dự án tôi đang thực hiện yêu cầu tôi phân cụm người dùng dựa trên thứ tự họ truy cập các trang web trên một trang web. Tôi có dữ liệu ở dạng:
['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]
Trong đó mỗi số là một danh mục / trang mà người dùng đã truy cập. Ngoài ra, độ dài dữ liệu của mỗi người dùng không giống nhau, tức là một số người dùng truy cập nhiều trang hơn những người khác.
Tôi nhận ra điều này thực sự mơ hồ và xác định sự giống nhau thật khó. Tôi đã thử làm theo ví dụ trong bài nghiên cứu này và thành thật mà nói, rất nhiều trong số đó đã đi qua đầu tôi.
Tôi cần giúp đỡ trong cách tiếp cận vấn đề này và sẵn sàng tiếp thu những ý tưởng và đề xuất mới.