Làm thế nào để bạn tính toán làm thế nào một tập dữ liệu dày đặc hoặc thưa thớt?

Tôi đang tìm hiểu sâu hơn về lọc cộng tác. Một bài viết thực sự thú vị là "Một nghiên cứu so sánh các thuật toán lọc cộng tác" http://arxiv.org/pdf/1205.3193.pdf

Để chọn thuật toán CF nào sẽ được sử dụng, bài viết đề cập đến mật độ của tập dữ liệu. Những gì nó không làm là giải thích cách bạn thực sự tính mật độ của tập dữ liệu của bạn.

Vì vậy, trong bối cảnh của bài báo trên, bất cứ ai có thể giúp tôi giải thích cho tôi cách tính mật độ của một tập dữ liệu? Bài viết đề cập đến mật độ thường xuyên trong phạm vi 1-5%.

machine-learning dataset recommender-system

— djones
nguồn

Nó thực sự được định nghĩa trên trang đầu tiên:

... mức độ thưa thớt (tỷ lệ quan sát trên tổng xếp hạng) ...

Nói cách khác, tỷ lệ của ma trận đánh giá người dùng / vật phẩm không trống. Hãy nhớ rằng vấn đề là hầu hết các cặp mục người dùng không có xếp hạng và chúng tôi muốn ước tính chúng.

Ví dụ :

Hãy để có ba người dùng và bốn sản phẩm. Số lượng xếp hạng có thể là $3\times4 = 12$ . Nếu mỗi người dùng chỉ đánh giá một sản phẩm (không phân biệt sản phẩm nào), mật độ là 3/12 = 25%.

— Emre
nguồn

do đó, đưa ra dữ liệu ví dụ đơn giản này: Người dùng 1 tỷ lệ Sản phẩm A. Người dùng 2 tỷ lệ Sản phẩm B. Người dùng 3 tỷ lệ Sản phẩm A. Sản phẩm C và Sản phẩm D không có xếp hạng. Mật độ sẽ là gì? 50%?

— djones

Có ba người dùng (1,2,3) và bốn sản phẩm (A, B, C, D). Có ba xếp hạng (1A, 2B, 3A), do đó mật độ là 3/12 = 25%.

— Emre

@Emre Bạn nên đưa ví dụ đó vào câu trả lời của bạn.

— Martin Thoma

Tôi thực sự thích câu trả lời ở đây, nhưng. Nói chính xác hơn, độ thưa và mật độ là một phần của xếp hạng không điền và xếp hạng tương ứng. Họ không thể được điều trị thay thế cho nhau. Mặc dù, mật độ + độ thưa nên dẫn đến 1.0. Tôi biết rằng do định nghĩa từ bài báo @Emre đã đưa ra câu trả lời tốt. Nhưng định nghĩa về độ thưa như mật độ thực tế là sai lệch.

— Bartłomiej Twardowski

Tôi đồng ý, nhưng đó là cách họ định nghĩa nó, và nó phổ biến.

— Emre