Về phân tích giỏ hàng, tôi nghĩ rằng mục tiêu chính là phân chia các kết hợp thường xuyên nhất của các sản phẩm được mua bởi khách hàng. Đại association rules
diện cho phương pháp tự nhiên nhất ở đây (thực sự chúng được phát triển cho mục đích này). Phân tích các kết hợp sản phẩm được khách hàng mua và số lần các kết hợp này được lặp lại, dẫn đến quy tắc loại 'nếu có điều kiện, sau đó đưa ra kết quả' với phép đo độ thú vị tương ứng. Bạn cũng có thể xem xét Log-linear models
để điều tra các mối liên quan giữa các biến được xem xét.
Bây giờ, để phân cụm, đây là một số thông tin có thể có ích:
Lúc đầu xem xét Variable clustering
. Phân cụm biến được sử dụng để đánh giá cộng tuyến, dự phòng và để phân tách các biến thành các cụm có thể được ghi thành một biến duy nhất, do đó dẫn đến giảm dữ liệu. Tìm varclus
hàm (gói Hmisc in R)
Đánh giá độ ổn định của clusterwise: function clusterboot
{R gói fpc}
Thống kê dựa trên khoảng cách để xác thực cụm: hàm cluster.stats
{gói R fpc}
Như mbq đã đề cập, sử dụng chiều rộng hình bóng để đánh giá số cụm tốt nhất. Xem này . Về chiều rộng hình bóng, xem thêm chức năng optsil .
Ước tính số lượng cụm trong một tập dữ liệu thông qua thống kê khoảng cách
Để tính toán các chỉ số khác nhau và các số đo khoảng cách, hãy xem DSvdis và vegdist
Thuật toán phân cụm EM có thể quyết định có bao nhiêu cụm được tạo bằng cách xác thực chéo, (nếu bạn không thể chỉ định apriori có bao nhiêu cụm để tạo). Mặc dù thuật toán EM được đảm bảo hội tụ đến mức tối đa, đây là mức tối đa cục bộ và có thể không nhất thiết phải giống với mức tối đa toàn cầu. Để có cơ hội đạt được mức tối đa toàn cầu tốt hơn, toàn bộ quy trình nên được lặp lại nhiều lần, với các dự đoán ban đầu khác nhau cho các giá trị tham số. Con số khả năng đăng nhập tổng thể có thể được sử dụng để so sánh các cấu hình cuối cùng khác nhau thu được: chỉ cần chọn cực đại lớn nhất của cực đại cục bộ . Bạn có thể tìm thấy một triển khai của trình phân cụm EM trong dự án nguồn mở WEKA
Đây cũng là một liên kết thú vị.
Cũng tìm kiếm ở đây choFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Cuối cùng, bạn có thể khám phá kết quả phân cụm bằng clusoston