Tại sao tính không tiêu cực lại quan trọng đối với các hệ thống lọc / đề xuất cộng tác?


11

Trong tất cả các hệ thống đề xuất hiện đại mà tôi đã thấy dựa trên yếu tố ma trận, một hệ số ma trận không âm được thực hiện trên ma trận phim người dùng. Tôi có thể hiểu tại sao sự không tiêu cực lại quan trọng đối với khả năng diễn giải và / hoặc nếu bạn muốn các yếu tố thưa thớt. Nhưng nếu bạn chỉ quan tâm đến hiệu suất dự đoán, như trong cuộc thi giải thưởng Netflix chẳng hạn, tại sao lại áp đặt giới hạn không tiêu cực? Nó dường như tồi tệ hơn nhiều so với việc cho phép các giá trị âm quá trong nhân tố của bạn.

Bài viết này là một ví dụ được trích dẫn nhiều về việc sử dụng nhân tố ma trận không âm trong lọc cộng tác.


1
Tôi không quen thuộc lắm với các hệ thống đề xuất (có lẽ bạn có thể bao gồm một số bài viết mẫu trong câu hỏi của bạn?). Nếu mô hình ưu tiên NNMF mà bạn suy luận là đúng, thì câu trả lời rất có thể là cải thiện khả năng khái quát. Nói cách khác, về mặt thực nghiệm, việc thiếu "tính dễ hiểu / thưa thớt" có liên quan đến sự phù hợp quá mức . Tuy nhiên, mã hóa thưa thớt (tức là chính quy hóa L1 / LASSO) có thể đáp ứng các yêu cầu này theo như tôi biết. (Có thể là NNMF có khả năng diễn giải cao hơn.)
GeoMatt22

Câu trả lời:


14

Tôi không phải là một chuyên gia trong các hệ thống giới thiệu, nhưng theo tôi hiểu, tiền đề của câu hỏi này là sai.

Không tiêu cực không quan trọng đối với lọc cộng tác.

Giải thưởng Netflix đã giành được trong năm 2009 bởi nhóm BellKor. Dưới đây là bài viết mô tả thuật toán của họ: Giải pháp BellKor 2008 cho Giải thưởng Netflix . Như dễ thấy, họ sử dụng cách tiếp cận dựa trên SVD:

Các nền tảng của sự tiến bộ của chúng tôi trong năm 2008 được trình bày trong bài viết của KDD 2008 [4]. [...] Trong bài báo [4] chúng tôi đưa ra một mô tả chi tiết về ba mô hình nhân tố. Mô hình đầu tiên là một SVD đơn giản [...] Mô hình thứ hai [...] chúng ta sẽ gọi mô hình này là là As Asmetmetric-SVD tựa. Cuối cùng, mô hình nhân tố chính xác hơn, được đặt tên là SV SVD ++ Cảnh [...]

Xem thêm bài viết phổ biến hơn này của cùng một nhóm các kỹ thuật nhân tố ma trận cho các hệ thống đề xuất . Họ nói rất nhiều về SVD nhưng hoàn toàn không đề cập đến NNMF.

Xem thêm bài đăng blog phổ biến này Cập nhật Netflix: Dùng thử tại nhà từ năm 2006, cũng giải thích các ý tưởng về SVD.

Tất nhiên bạn đúng và có một số công việc về việc sử dụng NNMF để lọc cộng tác là tốt. Vì vậy, những gì hoạt động tốt hơn, SVD hoặc NNMF? Tôi không có ý kiến ​​gì, nhưng đây là kết luận của Một nghiên cứu so sánh các thuật toán lọc cộng tác từ năm 2012:

Các phương pháp dựa trên ma trận-Factorization thường có độ chính xác cao nhất. Cụ thể, SVD, PMF được chuẩn hóa và các biến thể của nó hoạt động tốt nhất cho đến MAE và RMSE, ngoại trừ trong các tình huống rất thưa thớt, trong đó NMF hoạt động tốt nhất.


2
Nói chung đây là một câu trả lời tốt. Nhưng chỉ cần sửa một số sự kiện, giải pháp BellKor 2008 đã giành giải thưởng tiến bộ. Thuật toán chiến thắng tổng thể là sự pha trộn của hơn 100 dự đoán (Töscher et al. 2009). NMF cũng là một phần của nó.
dpelisek
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.