Bộ dữ liệu điểm chuẩn để lọc cộng tác


9

Tôi muốn thử nghiệm một thuật toán mới để lọc cộng tác . Trường hợp sử dụng thông thường là đề xuất phim dựa trên sở thích của người dùng tương tự như người dùng cụ thể.

Một số bộ dữ liệu điểm chuẩn phổ biến mà các nhà nghiên cứu thường sử dụng để kiểm tra thuật toán của họ là gì? Tôi biết rằng trong Computer Vision, mọi người thường sử dụng MNIST hoặc CIFAR, nhưng tôi không tìm thấy các bộ dữ liệu tương tự để lọc cộng tác.


1
Bạn đã xem bộ dữ liệu giải thưởng Netflix? Vâng, cuộc thi đã kết thúc lâu và nó đã được rút ra khỏi trang web chính thức vì một số lý do riêng tư. Bạn vẫn có thể cố gắng tìm nó ở các địa điểm khác.
Vladislavs Dovgalecs

Kaggle.com có ​​một bó. Chỉ cần tìm kiếm 'đề xuất trong: tập dữ liệu' hoặc 'đề xuất trong: cạnh tranh'.
ran8

Câu trả lời:


8

Câu trả lời rõ ràng sẽ là bộ dữ liệu giải thưởng Netflix, có rất nhiều nghiên cứu về nó và hầu hết các thuật toán CF đều biết điểm số trong đó.

Có các bộ dữ liệu có sẵn khác thường được sử dụng làm điểm chuẩn:

  • Bộ dữ liệu ống kính phim : bộ dữ liệu 20 triệu xếp hạng được sử dụng để đánh giá các thuật toán CF;

  • Jester Dataset : bộ dữ liệu đề xuất trò đùa với hơn 6 triệu xếp hạng;

  • Bạn có thể tìm thấy nhiều bộ dữ liệu hơn trong liên kết này


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.