Đối với dự án khóa học cuối cùng của chúng tôi về Khoa học dữ liệu, chúng tôi đã đề xuất như sau-
Đưa ra Bộ dữ liệu đánh giá Amazon , chúng tôi dự định đưa ra một thuật toán (dựa trên PageRank được cá nhân hóa) để xác định vị trí chiến lược để đặt quảng cáo trên Amazon. Ví dụ, có hàng triệu sản phẩm trên Amazon. Và bộ dữ liệu cung cấp cho bạn ý tưởng về những sản phẩm có liên quan, những sản phẩm nào được kết hợp với nhau, được xem cùng nhau, v.v. (Chúng tôi có thể xây dựng một biểu đồ với thông tin này cũng được xem và cũng đã mua) Nó cũng cung cấp cho bạn các đánh giá liên quan đến từng sản phẩm 14 năm. Sử dụng tất cả các thông tin này, chúng tôi sẽ xếp hạng / xếp hạng sản phẩm trên Amazon. Bây giờ, bạn là một nhà cung cấp trên Amazon muốn cải thiện lưu lượng truy cập vào trang sản phẩm của họ. Thuật toán của chúng tôi giúp bạn xác định các vị trí chiến lược trong biểu đồ nơi bạn có thể đặt quảng cáo để bạn có thể nhận được lưu lượng truy cập tối đa.
Bây giờ, câu hỏi của Giáo sư của chúng tôi là, bạn sẽ xác nhận thuật toán của mình như thế nào nếu không có người dùng thực sự? Chúng tôi đã nói-
Chúng tôi có thể mô hình một tập hợp người dùng cố định. Một số người dùng theo dõi
also_bought
vàalso_viewed
liên kết đến hop thứ ba thường xuyên hơn hop thứ nhất hoặc thứ năm. Có hành vi của người dùng thường được phân phối. Một số người dùng khác khó điều hướng ngoài bước nhảy đầu tiên. Tập hợp hành vi này của người dùng được phân phối theo cấp số nhân.
Giáo sư của chúng tôi cho biết - Bất kể người dùng theo phân phối nào, người dùng đều điều hướng bằng cách sử dụng các liên kết cho các sản phẩm tương tự. Thuật toán xếp hạng của bạn cũng xem xét sự giống nhau b / w 2 sản phẩm để xếp hạng sản phẩm. Vì vậy, sử dụng thuật toán xác nhận này là tốt cheating
. Đi kèm với một số hành vi người dùng khác, một cái gì đó thực tế hơn và trực giao với thuật toán.
Bất kỳ ý tưởng về cách mô hình hóa hành vi của người dùng? Tôi rất vui khi cung cấp thêm chi tiết về thuật toán.