Tôi có dữ liệu tương đương với:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Tôi muốn thực hiện một số phân tích về tập dữ liệu này để có được ma trận tương quan có hàm ý tương tự như: nếu bạn mua x, bạn có khả năng mua y.
Sử dụng python (hoặc có lẽ bất cứ điều gì trừ MATLAB), làm thế nào tôi có thể đi về điều đó? Một số hướng dẫn cơ bản, hoặc con trỏ đến nơi tôi nên tìm sẽ giúp.
Cảm ơn bạn,
Chỉnh sửa - Những gì tôi đã học được:
Những loại vấn đề được gọi là phát hiện quy tắc kết hợp. Wikipedia có một bài viết hay về một số thuật toán phổ biến để làm như vậy. Thuật toán cổ điển để làm như vậy có vẻ là Apriori, do Agrawal et. al.
Điều đó dẫn tôi đến màu cam , một gói khai thác dữ liệu giao thoa. Đối với Linux, cách tốt nhất để cài đặt dường như là từ nguồn bằng cách sử dụng setup.py được cung cấp
Màu cam theo mặc định đọc đầu vào từ các tệp, được định dạng theo một trong một số cách được hỗ trợ.
Cuối cùng, một quy tắc học hiệp hội Apriori đơn giản là màu cam đơn giản .
arules
sẽ đáng xem. Có lẽ "quy tắc kết hợp" là một thuật ngữ tìm kiếm tốt