Xác suất mà ai đó sẽ thích hình ảnh


11

Tôi đã gặp phải vấn đề sau:
- Chúng tôi có bộ N người
- Chúng tôi có bộ hình ảnh K
- Mỗi người đánh giá một số hình ảnh. Một người có thể thích hoặc không thích một hình ảnh (đây là hai khả năng duy nhất). - Vấn đề là làm thế nào để tính toán khả năng một người nào đó thích một hình ảnh cụ thể.

Tôi sẽ đưa ra ví dụ trình bày trực giác của tôi.
N = 4
K = 5
+ có nghĩa là người đó thích hình ảnh
- có nghĩa là người đó không thích hình ảnh
0 có nghĩa là người đó đã không được hỏi về hình ảnh và nên dự đoán giá trị đó

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

Người 1 có thể sẽ thích hình ảnh 3 bởi vì, người 2 có sở thích tương tự và người 2 thích hình ảnh 3.
Người 4 có thể sẽ không thích hình ảnh 2 vì không ai khác thích nó và ngoài ra người 4 không thích hầu hết các hình ảnh.

Có phương pháp nào nổi tiếng, có thể được sử dụng để tính toán khả năng đó không?


Với kinh nghiệm hạn chế của tôi, tôi không thể đưa ra một câu trả lời chính xác. Tuy nhiên, tôi tin rằng bạn có thể sử dụng dữ liệu bảng (vì bạn xem xét trong các biến thể ví dụ của mình trong các cá nhân và giữa các cá nhân) với phương pháp logit. Có lẽ những người khác có thể giải thích về điều này ...
teucer

Ví dụ nhỏ của bạn rất hữu ích, nhưng tôi cho rằng tập dữ liệu thực của bạn lớn hơn. Lớn hơn bao nhiêu, tức là (khoảng) lớn như thế nào là Nk thực sự của bạn ?
vào

N và k có thể rất lớn, nhưng sức mạnh tính toán không phải là vấn đề.
Tomek Tarczynski

Câu trả lời:



6

Đây có vẻ là một vấn đề tốt cho học máy, vì vậy tôi sẽ tập trung vào nhóm phương pháp này.

Ý tưởng đầu tiên và rõ ràng nhất là thuật toán kNN. Trước tiên, bạn tính toán sự tương đồng giữa những người xem và sau đó dự đoán số phiếu còn thiếu với số phiếu trung bình trên bức ảnh này do những người dùng tương tự thực hiện. Để biết chi tiết, xem Wikipedia .

Một ý tưởng khác là phát triển rừng ngẫu nhiên không giám sát trên dữ liệu này (bằng cách nào đó, với các thuộc tính trong hình ảnh hoặc con người, bất cứ điều gì tốt hơn) và đánh giá dữ liệu bị thiếu dựa trên cấu trúc rừng; toàn bộ phương thức được thực hiện và mô tả trong randomForestgói R , tìm kiếm rfImputehàm.

Cuối cùng, bạn có thể cấu trúc lại vấn đề thành một nhiệm vụ phân loại đơn giản, giả sử tạo một đối tượng của mỗi số 0 trong ma trận và thử nghĩ về một số mô tả hợp lý (như bình chọn của người xem trung bình, bình chọn hình ảnh trung bình, bình chọn nhiều nhất, nhiều thứ hai, .. . Trình xem tương tự, giống với hình ảnh, có thể là một số dữ liệu bên ngoài (màu sắc trung bình của hình ảnh, tuổi của cử tri, v.v.). Sau đó thử các phân loại khác nhau trên dữ liệu này (SVM, RF, NB, ...).

Ngoài ra còn có một số khả năng phức tạp hơn; để biết tổng quan, bạn có thể tìm kiếm các giải pháp cho giải thưởng Netflix (một vấn đề tương tự).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.