Ngay bây giờ, tôi chỉ có thời gian cho một câu trả lời rất ngắn gọn, nhưng tôi sẽ cố gắng mở rộng nó sau này.
Những gì bạn muốn làm là một cụm , vì bạn muốn khám phá một số nhãn cho dữ liệu của bạn. (Trái ngược với phân loại, nơi bạn sẽ có nhãn cho ít nhất một số dữ liệu và bạn muốn gắn nhãn cho phần còn lại).
Để thực hiện phân cụm trên người dùng của bạn, bạn cần có chúng dưới dạng một số điểm trong một không gian trừu tượng. Sau đó, bạn sẽ đo khoảng cách giữa các điểm và nói rằng các điểm "gần" là "tương tự" và gắn nhãn chúng theo vị trí của chúng trong không gian đó.
Bạn cần chuyển đổi dữ liệu của mình thành một cái gì đó trông giống như hồ sơ người dùng, nghĩa là: ID người dùng, theo sau là một vectơ số đại diện cho các tính năng của người dùng này. Trong trường hợp của bạn, mỗi tính năng có thể là "danh mục trang web" hoặc "danh mục sản phẩm" và con số có thể là số tiền được chi cho tính năng đó. Hoặc một tính năng có thể là sự kết hợp của web và sản phẩm, tất nhiên.
Ví dụ, chúng ta hãy tưởng tượng hồ sơ người dùng chỉ với ba tính năng:
- đô la chi tiêu trong các trang web "techy",
- đô la chi cho các sản phẩm "thời trang",
- và đô la chi cho các trò chơi video "hung hăng" trên các trang web "hướng đến gia đình" (ai biết).
Để xây dựng các cấu hình đó, bạn cần ánh xạ "danh mục" và "từ khóa" mà bạn có, quá phong phú, vào các tính năng bạn nghĩ là có liên quan. Nhìn vào mô hình chủ đề hoặc tương tự ngữ nghĩa để làm như vậy. Khi bản đồ đó được xây dựng, nó sẽ cho biết rằng tất cả đô la chi cho các trang web có từ khóa "tiện ích", "điện tử", "lập trình" và X khác, tất cả sẽ được tổng hợp thành tính năng đầu tiên của chúng tôi; và như thế.
Đừng sợ "áp đặt" các tính năng! Bạn sẽ cần tinh chỉnh chúng và có thể thay đổi hoàn toàn chúng sau khi bạn phân cụm người dùng.
Khi bạn có hồ sơ người dùng, hãy tiến hành phân cụm chúng bằng cách sử dụng phương tiện k hoặc bất cứ điều gì khác mà bạn cho là thú vị. Dù bạn sử dụng kỹ thuật nào, bạn sẽ quan tâm đến việc lấy điểm "đại diện" cho mỗi cụm. Đây thường là "tâm" hình học của các điểm trong cụm đó.
Vẽ các điểm "đại diện" đó và cũng vẽ sơ đồ cách chúng so sánh với các cụm khác. Sử dụng biểu đồ radar rất hữu ích ở đây. Bất cứ nơi nào có một tính năng nổi bật (một cái gì đó trong đại diện được đánh dấu rất rõ và cũng rất nổi bật so với các cụm khác) là một ứng cử viên tốt để giúp bạn gắn nhãn cụm từ với một số cụm từ hấp dẫn ("mọt sách", "fashionistas" , "Các bà mẹ hung hăng" ...).
Hãy nhớ rằng một vấn đề phân cụm là một vấn đề mở, vì vậy không có giải pháp "đúng"! Và tôi nghĩ câu trả lời của tôi đã khá dài rồi; cũng kiểm tra về việc chuẩn hóa các cấu hình và lọc các ngoại lệ.