Một người liên tục chọn hai mục giống nhau nhất trong số ba mục. Làm thế nào để mô hình / ước tính khoảng cách nhận thức giữa các mục?


8

Một người được tặng ba món đồ, nói hình ảnh khuôn mặt và được yêu cầu chọn ra hai trong số ba khuôn mặt giống nhau nhất. Điều này được lặp lại một số lượng lớn thời gian với các kết hợp khuôn mặt khác nhau, trong đó mỗi khuôn mặt có thể xảy ra trong nhiều kết hợp. Với loại dữ liệu này, tôi muốn mô hình hóa / ước tính sự khác biệt / tương đồng giữa các khuôn mặt bằng cách giả sử rằng mỗi khuôn mặt có thể được đặt trong không gian 2D (hoặc 3d, 4d, v.v.) trong đó khoảng cách giữa mỗi khuôn mặt phản ánh các lựa chọn của Người tham gia.

Điều gì sẽ là một cách tốt (có lẽ là tiêu chuẩn) của mô hình hóa / ước tính này?

Bất kỳ con trỏ nào hướng tới các mô hình / giấy tờ và / hoặc gói phần mềm đều được đánh giá cao.


Cá nhân tôi không nghĩ có một cách "chuẩn" trong các nhiệm vụ như thế này. Bạn có thể phát minh ra một công thức ad hoc hợp lý cho một hàm khoảng cách cho nghiên cứu của bạn. Bạn có thể dựa trên một hoặc cả hai khái niệm: 1) các mục "tương tự" là những mục thường được chọn bởi cùng một người; 2) các mục "tương tự" là các mục có xu hướng được chọn trên cùng các mục của đối thủ.
ttnphns

Hmm, tôi đã nghĩ rằng bạn có thể làm một số việc đa dạng, nhưng đó chưa phải là bất cứ điều gì tôi đã làm. Nghĩ rằng đây có vẻ như là một thiết lập thử nghiệm khá "tự nhiên", tôi đã hy vọng rằng có thể đã có một số tài liệu về điều này ...
Rasmus Bååth

Tôi nghĩ rằng quy mô đa chiều sẽ gần với cách xử lý "tiêu chuẩn" này, đến mức có một cách tiêu chuẩn. Điểm tương đồng quan sát được đối với mỗi cặp kích thích là (có thể là một số biến đổi) tỷ lệ số lần 2 kích thích đó được đánh giá là giống nhau hơn so với kích thích thứ 3 được chọn ngẫu nhiên. Một mô hình như vậy có thể được thực hiện nhanh chóng và dễ dàng sử dụng, ví dụ, MASS::isoMDS()trong R.
Jake Westfall

Câu trả lời:


7

Một cách tiếp cận tốt cho loại vấn đề này có thể được tìm thấy trong phần 4 của bài báo Hệ thống truy xuất hình ảnh Bayes, PicHunter của Cox et al (2000). Dữ liệu là một tập hợp các kết quả số nguyên trong đó là số lượng thử nghiệm. Trong trường hợp của bạn, có 3 kết quả có thể xảy ra cho mỗi thử nghiệm. Tôi sẽ để là chỉ số của khuôn mặt bị bỏ lại. Ý tưởng là đưa ra một mô hình tổng quát cho kết quả được đưa ra một số tham số mô hình, và sau đó ước tính các tham số theo khả năng tối đa. Nếu chúng tôi hiển thị khuôn mặt và người tham gia nói rằng giống nhau nhất, thì kết quả là , với xác suất N A i ( X 1 , X 2 , X 3 ) ( X 2 , X 3 ) A = 1 p ( A = 1 | X 1 , X 2 , X 3 ) exp ( - d ( X 2 , X 3 ) / σMột1,...,MộtNNMộtTôi(X1,X2,X3)(X2,X3)Một= =1D ( X 2 , X 3 ) σ d ( x , y ) =

p(Một= =1 | X1,X2,X3)αđiểm kinh nghiệm(-d(X2,X3)/σ)
trong đó là khoảng cách giữa các mặt 2 và 3 và là một tham số cho lượng "nhiễu" (nghĩa là mức độ phù hợp của người tham gia). Vì bạn muốn nhúng vào không gian Euclide, thước đo khoảng cách của bạn sẽ là: trong đó là (không xác định ) nhúng mặt . Các tham số của mô hình này là và , bạn có thể ước tính từ dữ liệu thông qua khả năng tối đa. Các giấy sử dụng gradient tăng dần để tìm tối đa. d(X2,X3)σθxxθσ
d(x,y)= =Σk(θxk-θyk)2
θxxθσ

Mô hình trong bài báo hơi khác một chút vì bài báo đã sử dụng các thuộc tính đã biết của hình ảnh để tính khoảng cách, thay vì nhúng không xác định. Để học cách nhúng, bạn sẽ cần một bộ dữ liệu lớn hơn nhiều, trong đó mỗi khuôn mặt được hiển thị nhiều lần.

Mô hình cơ bản này giả định rằng tất cả các thử nghiệm là độc lập và tất cả những người tham gia đều giống nhau. Một lợi ích tuyệt vời của phương pháp này là bạn có thể dễ dàng tô điểm mô hình để bao gồm tính không độc lập, hiệu ứng người tham gia hoặc các đồng biến khác.


+1 Thú vị. Bạn có nghĩ rằng trước tiên người ta có thể giải quyết cho và sau đó sử dụng một số loại tỷ lệ PCA / đa mẫu để tìm một điểm nhúng thích hợp trong không gian Euclide chiều thấp, được đưa ra ma trận khoảng cách không? Hoặc là tốt hơn để ước tính vị trí trong không gian Euclide trực tiếp? d
amip

Với số lượng dữ liệu hạn chế, tốt hơn là ước tính trực tiếp các vị trí trong không gian Euclide. Mặc dù tôi đồng ý rằng việc giải quyết đầu tiên cho đơn giản hơn , vì đã có các công cụ riêng biệt để hồi quy logistic và nhân rộng đa chiều. Phương pháp đơn giản hơn có đủ tốt hay không phụ thuộc vào lượng dữ liệu bạn có. Để có bất kỳ cơ hội ước tính , bạn sẽ cần mỗi cặp khuôn mặt xuất hiện cùng nhau trong nhiều thử nghiệm. ddd
Tom Minka

1

Nghĩ:

Tôi nghĩ rằng không gian riêng là một cách tốt để chuyển đổi những gì có thể là không gian hàng triệu thành một vài chục chiều.

Tiền đề:

Vì vậy, hãy giả sử rằng bạn đang sử dụng một công cụ eigenfaces phong nha, hoặc một công cụ:

  • không tiền xử lý để sắp xếp các tính năng phù hợp
  • xử lý màu sắc một cách thích hợp
  • đảm bảo các hình ảnh được sử dụng đều có cùng kích thước

Điều này có nghĩa là bạn không có "hình ảnh" nhiều như bạn có các vectơ có độ dài O (n = 50) có kích thước trong đó các phần tử là trọng số cho mỗi mặt eigen bao gồm cơ sở.

Phân tích:

Đầu tiên tôi sẽ tạo các vectơ 150 phần tử (ghép trọng lượng) làm đầu vào và vectơ 1 phần tử (phần tử khớp gần nhất) làm đầu ra. Nếu phần tử 1 và 2 gần nhất thì giá trị đầu ra sẽ là "12". Nếu các phần tử 1 và 3 gần nhất thì đầu ra sẽ là "13". Nếu các phần tử 2 và 3 gần nhất thì đầu ra sẽ là "23". Vì chỉ có 3 đầu ra duy nhất, tôi có thể ánh xạ lại chúng vào trường hợp 1 cho "12", trường hợp 2 cho "13" và trường hợp 3 cho "23.

Thứ hai tôi muốn vứt bỏ càng nhiều dữ liệu vô nghĩa càng tốt. Điều này có nghĩa là tôi sẽ cố gắng sử dụng một cái gì đó giống như các khu rừng ngẫu nhiên để xác định cột nào trong số 150 cột không có thông tin. Ngoài ra còn có một "phương pháp sinh đôi ác ngẫu nhiên" nhưng tôi không có nó trong tầm tay theo cách R mang lại cho tôi với những khu rừng ngẫu nhiên. (Nếu bạn biết một thư viện R tốt cho việc này, tôi mời bạn đưa nó vào phần bình luận).

Thứ ba, theo kinh nghiệm cá nhân của tôi, nếu bạn có kích thước mẫu phù hợp và cơ sở phù hợp, một khu rừng ngẫu nhiên thường có thể thả bạn xuống ~ 30 biến quan tâm, thậm chí từ 15k cột. Đây là nơi bạn phải xem xét hình thức chung của câu trả lời là gì.

Bạn có thể thử hàng tá biến đổi của các biến này để ánh xạ các đầu vào giảm xuống thành đầu ra:

  • bạn có thể đào tạo một RF của các đầu vào giảm và gọi nó là tốt.
  • bạn có thể đào tạo NN về các đầu vào giảm nếu bạn muốn nội suy và khái quát hóa tốt hơn so với RF
  • bạn có thể sử dụng một số loại chuyển đổi tuyến tính trên đầu vào
  • Có vài chục búa ML khác để đánh nó, nhưng khi bạn là một cây búa thì mọi vấn đề trông giống như một cái đinh.

Thêm suy nghĩ:

  • Tôi sẽ tò mò về những gì trong số các tham chiếu tập hợp giảm. Tôi chỉ muốn xem dữ liệu đó và để nó nói chuyện với tôi.
  • Tôi khá tò mò về kích thước mẫu của bạn và bản chất của biến thể của bạn. Nếu bạn đang xem 3 hàng, thì việc có 150 cột sẽ không quá hiệu quả. Nếu bạn có một vài ngàn hàng thì bạn có thể có hình dạng tuyệt vời. Một vài trăm hàng và bạn có thể là trung bình. Tôi hy vọng rằng bạn chiếm tất cả các nguồn khác nhau về dân tộc, hình dạng khuôn mặt, và như vậy.
  • Đừng sợ nhìn qua các mô hình đơn giản đầu tiên. Họ có thể tốt. Giải thích và khả năng ứng dụng của họ được đánh giá dễ dàng. Việc thực hiện của họ có thể được kiểm tra và xác nhận với ít nỗ lực hơn các phương pháp phức tạp và có độ nhạy cao.

CẬP NHẬT:
Công cụ "sinh đôi ác ngẫu nhiên" là "Boruta". ( liên kết )

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.