Cách thực hiện phân tích tương quan 'bia và tã'


8

Tôi có dữ liệu tương đương với:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Tôi muốn thực hiện một số phân tích về tập dữ liệu này để có được ma trận tương quan có hàm ý tương tự như: nếu bạn mua x, bạn có khả năng mua y.

Sử dụng python (hoặc có lẽ bất cứ điều gì trừ MATLAB), làm thế nào tôi có thể đi về điều đó? Một số hướng dẫn cơ bản, hoặc con trỏ đến nơi tôi nên tìm sẽ giúp.

Cảm ơn bạn,

Chỉnh sửa - Những gì tôi đã học được:

  1. Những loại vấn đề được gọi là phát hiện quy tắc kết hợp. Wikipedia có một bài viết hay về một số thuật toán phổ biến để làm như vậy. Thuật toán cổ điển để làm như vậy có vẻ là Apriori, do Agrawal et. al.

  2. Điều đó dẫn tôi đến màu cam , một gói khai thác dữ liệu giao thoa. Đối với Linux, cách tốt nhất để cài đặt dường như là từ nguồn bằng cách sử dụng setup.py được cung cấp

  3. Màu cam theo mặc định đọc đầu vào từ các tệp, được định dạng theo một trong một số cách được hỗ trợ.

  4. Cuối cùng, một quy tắc học hiệp hội Apriori đơn giản là màu cam đơn giản .


3
Nếu bạn đang tìm kiếm một gói R, arulessẽ đáng xem. Có lẽ "quy tắc kết hợp" là một thuật ngữ tìm kiếm tốt
Karsten W.

2
Xem thêm thuật toán Apriori cho cách tiếp cận "tiêu chuẩn" cho vấn đề này.
Đức Hồng Y

Câu trả lời:


7

Ngoài các liên kết đã được đưa ra trong các bình luận, đây là một số gợi ý thêm:

Về Python, tôi đoán bây giờ bạn có một ý tưởng về những gì bạn nên tìm kiếm, nhưng gói khai thác dữ liệu Orange có một gói về các quy tắc và Mục của Hiệp hội (mặc dù sau này tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào trên trang web).

Biên tập:

Gần đây tôi đã đi qua pysuggest đó là

một công cụ đề xuất Top-N thực hiện nhiều thuật toán đề xuất. Các hệ thống đề xuất Top-N, một công nghệ lọc thông tin được cá nhân hóa, được sử dụng để xác định một bộ N mục sẽ được người dùng nhất định quan tâm. Trong những năm gần đây, các hệ thống giới thiệu hàng đầu N đã được sử dụng trong một số ứng dụng khác nhau để giới thiệu các sản phẩm mà khách hàng sẽ mua nhiều nhất; đề xuất phim, chương trình TV hoặc âm nhạc mà người dùng sẽ thấy thú vị; xác định các trang web sẽ được quan tâm; hoặc thậm chí đề xuất các cách khác để tìm kiếm thông tin.


Có bao nhiêu sản phẩm, tôi tự hỏi, cần phải tham gia trước khi một ma trận tương quan đơn giản là không đủ?
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.