Câu hỏi cho những người khai thác dữ liệu có kinh nghiệm ngoài kia:
Đưa ra kịch bản này:
- Có N giỏ hàng
- Mỗi giỏ hàng chứa đầy số lượng vật phẩm M tùy ý từ một bộ lớn vô hạn (với số lượng dữ liệu hiện tại tôi có, số lượng tùy ý đó có thể đạt con số khoảng 1500)
- Thứ tự mà mỗi giỏ hàng được điền là đáng kể
- Có các thuộc tính khác như định vị địa lý của người mua hàng, nhưng những thuộc tính này có thể (và hiện đang được) bỏ qua để làm cho thuật toán đơn giản hơn
Tôi cần phải:
- Tại một thời điểm cụ thể, chỉ đưa ra các bộ vật phẩm được đặt hàng trong mỗi giỏ hàng, xác định giỏ hàng 'tương tự' mà không có kiến thức trước về nhãn lớp
- Sau khi đã thu thập được một lượng dữ liệu nhất định và công việc xử lý thông qua dữ liệu và gán nhãn, hãy tạo một trình phân loại có thể hoạt động nhanh chóng với dữ liệu chưa xem trong tương lai
Tiếp cận ban đầu:
- Cho đến nay, cách tiếp cận của tôi đã được tập trung vào điểm đầu tiên. Phương pháp của tôi sử dụng phân cụm k-nghĩa và xử lý tính chất tuần tự của dữ liệu bằng cách sử dụng ma trận khoảng cách được tạo bằng cách tính khoảng cách Hamming giữa các giỏ hàng. Theo cách này, [táo, chuối, lê] khác với [lê, táo, chuối], nhưng [táo, chuối, lê] ít khác với [táo, chuối, linh dương]. Giá trị thích hợp của k được xác định thông qua điều tra hệ số bóng. Các cụm được tạo ra từ điều này có vẻ có ý nghĩa, nhưng thời gian chạy phương thức của tôi chắc chắn sẽ bị cấm theo quy mô dữ liệu của tôi.
Câu hỏi:
- Bất cứ ai sẽ có bất kỳ đề xuất cho một người khai thác dữ liệu mới cho vấn đề này?
Chỉnh sửa với nhiều thông tin hơn:
- Tôi đã tìm thấy các đề xuất xem xét sử dụng các tính năng n-gram và so sánh chúng theo cặp. Một mối quan tâm của tôi về vấn đề này là thứ tự: thứ tự của các chuỗi sẽ được duy trì nếu các mô hình n-gram được sử dụng? Ngoài ra, tôi thấy các vấn đề về hiệu suất là một khả năng lớn hơn với phương pháp này.