Sản phẩm tích cực của người dùng (dữ liệu nhấp chuột) có sẵn. Làm thế nào để tạo âm (dữ liệu không nhấp chuột)?


10

Rất phổ biến ở người giới thiệu rằng chúng tôi có dữ liệu sản phẩm người dùng có nhãn là "nhấp chuột". Để tìm hiểu mô hình, tôi cần dữ liệu nhấp và không nhấp.

Cách tiếp cận đơn giản nhất để tạo là lấy các cặp sản phẩm người dùng không tìm thấy trong dữ liệu nhấp chuột. Tuy nhiên, điều đó có thể gây hiểu nhầm. Thí dụ:

user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click)

Tôi có thể lấy user1 với tất cả các sản phẩm ngoại trừ sản phẩm1 và gắn nhãn là "no_click", v.v. Nhưng điều này có thể không đúng. Có lẽ user1 đã nhấp vào sản phẩm2 nếu anh ta được hiển thị sản phẩm2. Nhưng chỉ vì anh ta được xem các bộ sản phẩm khác - anh ta không có cơ hội quyết định nhấp / không nhấp vào sản phẩm2.

Vậy làm thế nào để giải quyết vấn đề dữ liệu đơn nguyên?


1
Tôi nghĩ bạn đã trả lời câu hỏi của bạn. Bạn nên ghi lại một khái niệm về một ấn tượng, hoặc hiển thị. Nếu bạn cho thấy một sản phẩm và họ không nhấp chuột, thì đây là thứ bạn đang tìm kiếm.

Nhưng thực sự điều này không có sẵn trong dữ liệu được ghi lại. Đó là những gì tôi đã đề cập. Dữ liệu chỉ chứa những gì cặp sản phẩm người dùng có nhãn nhấp chuột. Những gì đã được hiển thị và những gì đã được nhấp không được ghi lại.
p.paliwal

Ngoài ra, ngay cả khi giả sử - user1 đã được hiển thị prod1, prod2, prod3 (và anh ấy đã nhấp prod1) - Sau đó, user1 với prod2 và prod3 sẽ không có nhãn nhấp chuột. Nhưng những gì về phần còn lại của sản phẩm (prod4, prod5, ...). Chỉ vì chúng không được hiển thị, người dùng không có cơ hội quyết định nhấp / không nhấp. Điều này không cho biết liệu người dùng có quan tâm đến các sản phẩm không hiển thị hay không - do đó, việc gắn nhãn tất cả các kết hợp khác là không nhấp chuột có thể không đúng trong thực tế. Đây là những gì tôi cũng giải thích trong câu hỏi.
p.paliwal

Câu trả lời:


6

Vì vậy, có hai vấn đề.

  1. Ghi lại ấn tượng (chương trình)
  2. Cách xử lý không hiển thị

Đối với (1) bạn nên ghi lại thông tin này. Nếu nó hiện không được ghi lại, bạn nên bắt đầu ghi thông tin này. Cho rằng bạn không có thông tin này, bạn muốn cung cấp các khuyến nghị. May mắn thay, chỉ với dữ liệu nhấp chuột, bạn vẫn có thể tạo ma trận tiện ích, xem 9.1.1.

http://i.stanford.edu/~ullman/mmds/ch9.pdf

Sau đó, bạn có thể sử dụng bộ lọc cộng tác dựa trên người dùng hoặc vật phẩm như được mô tả trong bài viết. Về cơ bản, đây là một bài tập trong việc điền vào ma trận tiện ích và cố gắng tìm "điểm số" cho các mục chưa được xử lý. Đề xuất của bạn sẽ là một mục chưa được đánh dấu với số điểm cao nhất.

Đối với (2) bạn vẫn sẽ đưa ra đề xuất về các mục chưa được xử lý. Vì vậy, đó không phải là một vấn đề. Bạn sẽ muốn tối ưu hóa ấn tượng của bạn tuy nhiên. Bạn cũng không thể có kiến ​​thức đầy đủ nơi người dùng có thể thấy tất cả các tùy chọn có thể. Bạn cần ghi lại ấn tượng và hiểu một số điều.

  • tỷ lệ hiển thị của một mặt hàng
  • tỷ lệ nhấp của một mục
  • làm thế nào để kết hợp các mục mới
  • Làm thế nào để tối ưu hóa những mục cần hiển thị

Đây là một chủ đề rất lớn và về cơ bản đây là vấn đề của quảng cáo trực tuyến. Tuy nhiên, một công cụ đề xuất cố gắng tìm các mục quan tâm trong phần đuôi dài, khác một chút so với tối ưu hóa quảng cáo. Đây là một vòng phản hồi để đánh giá đề xuất của bạn. Xét nghiệm A / B là phổ biến. Bạn sẽ muốn kiểm tra tỷ lệ nhấp và lỗi khuyến nghị giữa hệ thống hiện tại của bạn và hệ thống mới.

Cũng xem tại đây.

http://cs.brynmawr.edu/Cifts/cs380/fall2006/Herlocker2004.pdf

http://www.cs.umd.edu/~samir/498/Amazon-Recommendations.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.