Dữ liệu nhấp vào cụm


8

Gần đây tôi đã tham gia vào lĩnh vực học máy và một dự án tôi đang thực hiện yêu cầu tôi phân cụm người dùng dựa trên thứ tự họ truy cập các trang web trên một trang web. Tôi có dữ liệu ở dạng:

['user_id', 1, 2, 4, 6, 3, 7, 3, 2, 4...]

Trong đó mỗi số là một danh mục / trang mà người dùng đã truy cập. Ngoài ra, độ dài dữ liệu của mỗi người dùng không giống nhau, tức là một số người dùng truy cập nhiều trang hơn những người khác.

Tôi nhận ra điều này thực sự mơ hồ và xác định sự giống nhau thật khó. Tôi đã thử làm theo ví dụ trong bài nghiên cứu này và thành thật mà nói, rất nhiều trong số đó đã đi qua đầu tôi.

Tôi cần giúp đỡ trong cách tiếp cận vấn đề này và sẵn sàng tiếp thu những ý tưởng và đề xuất mới.

Câu trả lời:


3

Đó là một câu hỏi hay với nhiều ứng dụng thực tế.

Dữ liệu của bạn là tuần tự, vì vậy chúng tôi cần một thước đo tương tự giữa bất kỳ cặp trình tự nào. Tôi đề nghị khoảng cách Levensthein vì nó rất trực quan và được xác định rất độc đáo. Xem thêm luận án cử nhân tốt đẹp này với tổng quan về nhiều biện pháp hơn cho dữ liệu tuần tự.

Cuối cùng, nếu một người có khoảng cách giữa tất cả các cặp trình tự, chúng ta có thể sử dụng bất kỳ thuật toán phân cụm nào lấy ma trận khoảng cách làm đầu vào (ví dụ: bất kỳ thuật toán phân cấp nào).


2

Bạn có thể sử dụng gói nhấp chuột hoặc clickclust bằng ngôn ngữ R. Nó thực hiện chính xác những gì bạn đang tìm kiếm.


2
Điều này thực sự phù hợp như là một nhận xét hơn là một câu trả lời.
Cá bạc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.