Phương pháp khai thác dữ liệu để phân tích dữ liệu tuần tự với các thuộc tính danh nghĩa


8

Câu hỏi cho những người khai thác dữ liệu có kinh nghiệm ngoài kia:

Đưa ra kịch bản này:

  • Có N giỏ hàng
  • Mỗi giỏ hàng chứa đầy số lượng vật phẩm M tùy ý từ một bộ lớn vô hạn (với số lượng dữ liệu hiện tại tôi có, số lượng tùy ý đó có thể đạt con số khoảng 1500)
  • Thứ tự mà mỗi giỏ hàng được điền là đáng kể
  • Có các thuộc tính khác như định vị địa lý của người mua hàng, nhưng những thuộc tính này có thể (và hiện đang được) bỏ qua để làm cho thuật toán đơn giản hơn

Tôi cần phải:

  • Tại một thời điểm cụ thể, chỉ đưa ra các bộ vật phẩm được đặt hàng trong mỗi giỏ hàng, xác định giỏ hàng 'tương tự' mà không có kiến ​​thức trước về nhãn lớp
  • Sau khi đã thu thập được một lượng dữ liệu nhất định và công việc xử lý thông qua dữ liệu và gán nhãn, hãy tạo một trình phân loại có thể hoạt động nhanh chóng với dữ liệu chưa xem trong tương lai

Tiếp cận ban đầu:

  • Cho đến nay, cách tiếp cận của tôi đã được tập trung vào điểm đầu tiên. Phương pháp của tôi sử dụng phân cụm k-nghĩa và xử lý tính chất tuần tự của dữ liệu bằng cách sử dụng ma trận khoảng cách được tạo bằng cách tính khoảng cách Hamming giữa các giỏ hàng. Theo cách này, [táo, chuối, lê] khác với [lê, táo, chuối], nhưng [táo, chuối, lê] ít khác với [táo, chuối, linh dương]. Giá trị thích hợp của k được xác định thông qua điều tra hệ số bóng. Các cụm được tạo ra từ điều này có vẻ có ý nghĩa, nhưng thời gian chạy phương thức của tôi chắc chắn sẽ bị cấm theo quy mô dữ liệu của tôi.

Câu hỏi:

  • Bất cứ ai sẽ có bất kỳ đề xuất cho một người khai thác dữ liệu mới cho vấn đề này?

Chỉnh sửa với nhiều thông tin hơn:

  • Tôi đã tìm thấy các đề xuất xem xét sử dụng các tính năng n-gram và so sánh chúng theo cặp. Một mối quan tâm của tôi về vấn đề này là thứ tự: thứ tự của các chuỗi sẽ được duy trì nếu các mô hình n-gram được sử dụng? Ngoài ra, tôi thấy các vấn đề về hiệu suất là một khả năng lớn hơn với phương pháp này.

Câu hỏi thú vị, nhưng có lẽ phù hợp hơn với thống kê.stackexchange.com
Matt Parker

Ban đầu tôi đã gửi cái này đến stats.stackexchange.com và đang xem nó từ đó ... cái này có hiển thị ở nơi khác không?
don

Ôi trời, đã một tuần dài. Tôi thường xuyên mở một loạt các câu hỏi StackOverflow và CrossValidated trong các tab liền kề và đây là phần cuối của một chuỗi các câu hỏi StackOverflow. Sau đó, khi tôi đánh dấu sự chú ý, nó cho tôi tùy chọn đề xuất rằng nó chuyển sang stats.stackexchange - ngoại trừ đó thực sự là META.stats.stackexchange. Tôi có lẽ nên đi ngủ bây giờ.
Matt Parker

bạn không giống như một người khai thác dữ liệu mới làm quen với tôi.
rolando2

@ rolando2: Tôi cho rằng tất cả đều tương đối, heh. Tôi vẫn cảm thấy như mình chỉ cạo bề mặt của chủ đề ...
don

Câu trả lời:


1

Tôi cũng là một người khai thác dữ liệu mới, nhưng tôi có thể đề xuất rằng phân tích dữ liệu khám phá luôn là bước đầu tiên tốt không? Tôi sẽ xem liệu các mặt hàng có thể được chỉ định một số loại 'giá trị ưu tiên' có thể phục vụ để dự đoán thời gian xuất hiện sớm trong giỏ hàng hay không, vì kết quả như vậy có thể cho phép bạn sử dụng các mô hình đơn giản hơn. Một cái gì đó đơn giản như một hồi quy tuyến tính trên (#order trong giỏ hàng / # số mặt hàng trong giỏ hàng) cho tất cả các xe sở hữu mặt hàng X sẽ cho bạn biết liệu điều này có khả thi hay không. Giả sử bạn thấy rằng một tỷ lệ nhất định của các mặt hàng luôn xuất hiện sớm hoặc muộn hơn và một số dường như hoàn toàn ngẫu nhiên: điều này sẽ hướng dẫn bạn trong việc xây dựng mô hình sau này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.