Mục đích chuẩn hóa L2 cho mạng bộ ba


7

Học từ xa dựa trên bộ ba để nhận dạng khuôn mặt có vẻ rất hiệu quả. Tôi tò mò về một khía cạnh cụ thể của bài báo. Là một phần của việc tìm kiếm sự nhúng cho một khuôn mặt, các tác giả đã bình thường hóa các đơn vị ẩn bằng cách sử dụng chuẩn hóa L2, điều này hạn chế việc biểu diễn ở trên một siêu cầu. Tại sao điều đó hữu ích hoặc cần thiết?

Câu trả lời:


7

Khoảng cách Euclide bình phương giữa các vectơ chuẩn hóa tỷ lệ thuận với độ tương tự cosin của chúng (ref: wikipedia ), vì vậy lợi thế của việc sử dụng chuẩn hóa ít nhiều là lợi thế của sự tương tự cosine so với Khoảng cách Euclide. Như đã đề cập trong câu trả lời của Andy Jones, nếu không bình thường hóa tỷ lệ lề theo một yếu tố sẽ chỉ là tỷ lệ nhúng tương ứng.

AABB2=AA2+BB22ABAB=22ABAB

Một đặc tính tốt khác là, với sự chuẩn hóa như vậy, giá trị của khoảng cách Euclide bình phương được đảm bảo nằm trong phạm vi , giúp chúng ta tiết kiệm nhiều công sức từ việc chọn tham số lề thích hợp .[0,4]α

Ví dụ, trong một bài báo khác được tham chiếu bởi bài báo này, nó sử dụng mô hình lò xo dựa trên khoảng cách Euclide bình phương (không chuẩn hóa), trong đó một trong những khó khăn thực tế là xác định lề và điểm phân chia thích hợp do việc nhúng liên tục thay đổi như việc đào tạo tiến hành.

Nếu bạn đang tìm cách tự thực hiện lớp chuẩn hóa, thì đây là một blog về các dẫn xuất và triển khai trong Caffe (một phần của blog bằng tiếng Trung Quốc nhưng nó sẽ không ảnh hưởng đến việc đọc).


Tại sao khoảng cách Euclide bình phương giới hạn trong [0, 4] nếu trong trường hợp này, nó bằng với khoảng cách cosin chỉ có thể ở [-1, 1]?
cướp biển

@pir nếu bạn nhìn vào phía bên phải của công thức, đó thực sự là 2-2 * cos_sim, nằm ở giữa [0, 4] vì cos_sim nằm trong [-1, 1]
dontloo

1

Tôi nghĩ rằng bởi vì nó cung cấp một vị trí và quy mô ưa thích để nhúng. Vị trí ưa thích có nghĩa là mất không còn là bất biến dịch, điều này hữu ích khi bạn làm việc với dấu phẩy động, trong khi thang đo ưa thích mang lại ý nghĩa tham số lề. Nếu không có giới hạn siêu cầu, tôi nghĩ rằng việc tăng biên theo hệ số sẽ chỉ quy mô tất cả các nhúng theo hệ số .cc


Điều đó có ý nghĩa, cảm ơn. Bạn có biết làm thế nào độ dốc cho các tham số được sửa đổi bằng cách chuẩn hóa này không?
cướp biển

Cách tiếp cận điển hình của IIRC là chỉ đơn giản là chiếu lại vào siêu cầu ở cuối mỗi bước.
Andy Jones

1
Không, theo cách thực hiện Torch này, tôi đã sai; bạn chỉ cần lấy và áp dụng gradient theo cách tiêu chuẩn.
Andy Jones
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.