Một cách tiếp cận tốt cho loại vấn đề này có thể được tìm thấy trong phần 4 của bài báo Hệ thống truy xuất hình ảnh Bayes, PicHunter của Cox et al (2000). Dữ liệu là một tập hợp các kết quả số nguyên trong đó là số lượng thử nghiệm. Trong trường hợp của bạn, có 3 kết quả có thể xảy ra cho mỗi thử nghiệm. Tôi sẽ để là chỉ số của khuôn mặt bị bỏ lại. Ý tưởng là đưa ra một mô hình tổng quát cho kết quả được đưa ra một số tham số mô hình, và sau đó ước tính các tham số theo khả năng tối đa. Nếu chúng tôi hiển thị khuôn mặt và người tham gia nói rằng giống nhau nhất, thì kết quả là , với xác suất
N A i ( X 1 , X 2 , X 3 ) ( X 2 , X 3 ) A = 1 p ( A = 1 | X 1 , X 2 , X 3 ) ∝ exp ( - d ( X 2 , X 3 ) / σMột1, . . . , ANNMộtTôi( X1, X2, X3)( X2, X3)A = 1D ( X 2 , X 3 ) σ d ( x , y ) = √
p ( A = 1 | X 1, X2, X3) ∝ điểm kinh nghiệm( - d( X2, X3) / Σ)
trong đó là khoảng cách giữa các mặt 2 và 3 và là một tham số cho lượng "nhiễu" (nghĩa là mức độ phù hợp của người tham gia). Vì bạn muốn nhúng vào không gian Euclide, thước đo khoảng cách của bạn sẽ là:
trong đó là (không xác định ) nhúng mặt . Các tham số của mô hình này là và , bạn có thể ước tính từ dữ liệu thông qua khả năng tối đa. Các giấy sử dụng gradient tăng dần để tìm tối đa.
d( X2, X3)σθxxθσd( x , y) = ∑k( θx k- θyk)2------------√
θxxθσ
Mô hình trong bài báo hơi khác một chút vì bài báo đã sử dụng các thuộc tính đã biết của hình ảnh để tính khoảng cách, thay vì nhúng không xác định. Để học cách nhúng, bạn sẽ cần một bộ dữ liệu lớn hơn nhiều, trong đó mỗi khuôn mặt được hiển thị nhiều lần.
Mô hình cơ bản này giả định rằng tất cả các thử nghiệm là độc lập và tất cả những người tham gia đều giống nhau. Một lợi ích tuyệt vời của phương pháp này là bạn có thể dễ dàng tô điểm mô hình để bao gồm tính không độc lập, hiệu ứng người tham gia hoặc các đồng biến khác.