Bộ dữ liệu điểm chuẩn để lọc cộng tác

9

Tôi muốn thử nghiệm một thuật toán mới để lọc cộng tác . Trường hợp sử dụng thông thường là đề xuất phim dựa trên sở thích của người dùng tương tự như người dùng cụ thể.

Một số bộ dữ liệu điểm chuẩn phổ biến mà các nhà nghiên cứu thường sử dụng để kiểm tra thuật toán của họ là gì? Tôi biết rằng trong Computer Vision, mọi người thường sử dụng MNIST hoặc CIFAR, nhưng tôi không tìm thấy các bộ dữ liệu tương tự để lọc cộng tác.

dataset recommender-system

— cướp biển
nguồn

1

Bạn đã xem bộ dữ liệu giải thưởng Netflix? Vâng, cuộc thi đã kết thúc lâu và nó đã được rút ra khỏi trang web chính thức vì một số lý do riêng tư. Bạn vẫn có thể cố gắng tìm nó ở các địa điểm khác.

— Vladislavs Dovgalecs

Kaggle.com có một bó. Chỉ cần tìm kiếm 'đề xuất trong: tập dữ liệu' hoặc 'đề xuất trong: cạnh tranh'.

— ran8

8

Câu trả lời rõ ràng sẽ là bộ dữ liệu giải thưởng Netflix, có rất nhiều nghiên cứu về nó và hầu hết các thuật toán CF đều biết điểm số trong đó.

Có các bộ dữ liệu có sẵn khác thường được sử dụng làm điểm chuẩn:

Bộ dữ liệu ống kính phim : bộ dữ liệu 20 triệu xếp hạng được sử dụng để đánh giá các thuật toán CF;
Jester Dataset : bộ dữ liệu đề xuất trò đùa với hơn 6 triệu xếp hạng;
Bạn có thể tìm thấy nhiều bộ dữ liệu hơn trong liên kết này

— João Almeida
nguồn

1

Tôi có một kho lưu trữ có thể giúp bạn.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

— Pháo đài Arthur
nguồn

3

Xin vui lòng không đăng câu trả lời chỉ liên kết, câu trả lời nên được khép kín. Tôi khuyên bạn nên chỉnh sửa câu trả lời của mình để thêm ít nhất một vài thông tin mà liên kết cung cấp và sau đó cung cấp liên kết để khám phá thêm.

— Mephy