Do Autoencoders giữ khoảng cách?


7

Dựa trên sự hiểu biết của tôi, bộ tự động được sử dụng để tìm một biểu diễn nhỏ gọn của các tính năng đầu vào mang thông tin cơ bản cần thiết.

Có bất kỳ mối quan hệ giữa khoảng cách L2 trong không gian đầu vào ban đầu và không gian (rút gọn) không? Nếu không, tôi có thể đào tạo mạng sao cho biểu diễn nhỏ gọn giữ khoảng cách sau khi chuyển đổi không?


1
Tôi không hy vọng rằng sẽ giữ được bất cứ thứ gì - sau tất cả, mọi người sử dụng các không gian tiềm ẩn của bộ mã hóa tự động để có sự tương đồng có ý nghĩa hơn - ví dụ: nếu bạn huấn luyện bộ tự động mã hóa trên hình ảnh, các vectơ tiềm ẩn tương tự tương ứng với hình ảnh liên quan đến ngữ nghĩa, trái ngược với hình ảnh tương tự trong không gian pixel.
Jakub Bartczuk

2
Khi bạn nói "giữ khoảng cách (theo cặp)", bạn có nghĩa là giữa tất cả các điểm của không gian đầu vào, hoặc chỉ giữa các điểm của tập huấn luyện? Nói cách khác, giả sử tôi có một điểm đầu vào mớiP(điểm kiểm tra) không được sử dụng tại thời điểm đào tạo. Bạn có mong đợi bộ mã hóa tự động học một đại diệnZ sao cho khoảng cách của Z từ bất kỳ điểm nào trong không gian giảm, có cùng khoảng cách với khoảng cách của Ptrong không gian ban đầu?
DeltaIV

1
Hoặc bạn có thể hài lòng với một bộ mã hóa tự động chỉ học các biểu diễn của tập huấn luyện để duy trì khoảng cách theo cặp của các điểm trong tập huấn luyện không? Tức là, một cái gì đó như quy mô đa chiều?
DeltaIV

1
@DeltaIV Thuộc tính tôi muốn thấy là nếu một mẫu trong tập kiểm tra gần với điểm trong tập huấn / kiểm tra trong không gian ban đầu, thì nó cũng sẽ ở gần trong không gian giảm.
Mahdi

Cảm ơn rât nhiều. Vui lòng bao gồm thông tin này trong phần chính của câu hỏi: tất cả thông tin quan trọng nên có ở đó. Bình luận có nghĩa là tạm thời.
DeltaIV

Câu trả lời:


5

Không, họ không. Về cơ bản chúng tôi thiết kế chúng để chúng không thể giữ khoảng cách. Bộ mã hóa tự động là một mạng nơ-ron học cách biểu diễn "có ý nghĩa" của đầu vào, duy trì các tính năng "ngữ nghĩa" của nó. Các từ được trích dẫn (như rất nhiều thuật ngữ trong bài viết Deep Learning) không có định nghĩa chặt chẽ, nhưng giả sử rằng, được đào tạo về một bộ đầu vào, bộ mã hóa tự động nên tìm hiểu một số tính năng phổ biến của các đầu vào này, cho phép tái tạo một đầu vào không nhìn thấy với nhỏ lỗi 1 .

Cách đơn giản nhất để bộ mã hóa tự động giảm thiểu sự khác biệt giữa đầu vào và đầu ra (đầu vào được xây dựng lại) là chỉ đầu ra đầu vào, tức là, để tìm hiểu chức năng nhận dạng, là một hình học, do đó nó bảo toàn khoảng cách. Tuy nhiên, chúng tôi không muốn trình mã hóa tự động chỉ đơn giản là tìm hiểu bản đồ nhận dạng, vì nếu không, chúng tôi không học cách biểu diễn "có ý nghĩa" hoặc nói tốt hơn, chúng tôi không học cách "nén" đầu vào bằng cách học cơ bản các tính năng ngữ nghĩa và "vứt bỏ" các chi tiết phút (tiếng ồn, trong trường hợp khử nhiễu tự động).

Để ngăn bộ mã hóa tự động học chuyển đổi nhận dạng và buộc nó phải nén đầu vào, chúng tôi giảm số lượng đơn vị trong các lớp ẩn của bộ mã hóa tự động (lớp hoặc nút cổ chai). Nói cách khác, chúng tôi buộc nó phải học một hình thức giảm kích thước phi tuyến: không phải là không có gì, có một mối liên hệ sâu sắc giữa bộ tự động tuyến tính và PCA , một quy trình thống kê nổi tiếng để giảm kích thước tuyến tính.

Tuy nhiên, điều này phải trả giá : bằng cách buộc bộ mã hóa tự động thực hiện một số loại giảm kích thước phi tuyến, chúng tôi ngăn không cho nó giữ khoảng cách. Như một vấn đề thực tế, bạn có thể chứng minh rằng không tồn tại đẳng hình, tức là không có biến đổi bảo toàn khoảng cách, giữa hai không gian EuclideEnEm nếu m<n(điều này được chứng minh ngầm trong bằng chứng này của một tuyên bố khác ). Nói cách khác, một phép biến đổi giảm kích thước có thể là một hình học. Điều này khá trực quan, thực tế: nếu bộ mã hóa tự động phải học cách ánh xạ các phần tử của không gian vectơ chiều caoV, cho các yếu tố của một đa tạp chiều thấp hơn M nhúng vào V, nó sẽ phải "hy sinh" một số hướng trong V, có nghĩa là hai vectơ chỉ khác nhau dọc theo các hướng này sẽ được ánh xạ tới cùng một phần tử của M. Do đó, khoảng cách của chúng, ban đầu khác không, không được bảo toàn (nó trở thành 0).

LƯU Ý : có thể tìm hiểu ánh xạ của tập hợp hữu hạn các phần tử củaV S={v1,,vn}, đến một tập hợp các phần tử hữu hạn O={w1,,wn}M, sao cho khoảng cách cặp được bảo toàn. Đây là những gì quy mô đa chiều cố gắng làm. Tuy nhiên, không thể ánh xạ tất cả các yếu tố củaV đến các yếu tố của một không gian chiều thấp hơn W trong khi bảo toàn khoảng cách.


1 điều trở nên phức tạp hơn khi chúng ta đề cập đến hương vị yêu thích của bộ tự động mã hóa, Bộ biến đổi tự động biến đổi, nhưng tôi sẽ không tập trung vào chúng ở đây.


2
+1 đẹp tìm giấy đó! (sẽ đọc!) Nó làm tôi nhớ đến một tuyên bố mà tôi đã đọc cách đây nhiều năm: " một bộ mã hóa tự động tuyến tính cơ bản học về cơ bản giống như một Phân tích thành phần chính (PCA) " Längkvist et al. Mẫu nhận dạng thư 42 (2014) 11-24. (Rất nhiều tài liệu tuyệt vời để đọc. Tôi cảm thấy rằng nếu tôi đọc một nửa số giấy tôi muốn đọc nhưng tôi chưa đọc, tôi sẽ đọc nhiều giấy hơn những gì tôi đã đọc.)
usεr11852

2

Bạn có thể đào tạo một mạng với bất kỳ chức năng mất nào bạn muốn. Do đó, cách tiếp cận 1, bạn có thể tạo một hàm mất đẩy mạng để đảm bảo rằng khoảng cách giữa các cặp trong một lô nhỏ trong đầu ra bằng với giữa các cặp trong đầu vào. Nếu bạn thực hiện trên cơ sở lô nhỏ và kích cỡ lô là 16 hoặc 32, điều đó dường như không khả thi. Hoặc bạn có thể lấy mẫu một vài cặp và tính toán tổn thất trên những cặp đó (cùng số lượng mỗi cặp nhỏ, ví dụ được lấy mẫu ngẫu nhiên).

Về việc tạo ra một mạng phi tuyến tính được đảm bảo để duy trì khoảng cách, cách tiếp cận 2, tôi nghĩ một cách tiếp cận có thể là xây dựng mạng ra khỏi các khối mà chính chúng giữ khoảng cách, ví dụ như xoay. Tôi không chắc chắn rằng mạng này có thể là bất cứ thứ gì khác ngoài chuyển đổi tuyến tính và chỉ là một vòng quay tại đó. Bất kỳ sự phi tuyến tính nào, chẳng hạn như một vết sigmoid, sẽ làm biến dạng khoảng cách.

Tôi nghĩ cách tiếp cận 1 nghe có vẻ khả thi đối với tôi, mặc dù không có gì đảm bảo rằng khoảng cách luôn được giữ nguyên và chúng sẽ không được bảo tồn chính xác. Cách tiếp cận thứ hai nghe có vẻ trực giác với tôi rằng bạn sẽ bị giới hạn trong một chuyển đổi xoay vòng duy nhất?

Chỉnh sửa: để làm rõ. Tôi đang trả lời câu hỏi "làm thế nào người ta có thể tạo một bộ mã hóa tự động giữ khoảng cách?". Câu trả lời ngầm tôi đưa ra cho "Bộ mã hóa tự động có giữ khoảng cách không?" là "Không phải mặc định, mặc dù bạn có thể đưa vào một loạt các công việc chân để khuyến khích trường hợp này, tức là cách tiếp cận 1 ở trên".

Chỉnh sửa 2: @DeltaIV có một điểm tốt về giảm kích thước. Lưu ý rằng sự tồn tại của t-SNE, v.v., tức là các hình chiếu chiều thấp của không gian chiều cao, cho thấy cả những hạn chế của việc cố gắng giữ khoảng cách (xung đột giữa khoảng cách toàn cầu và khoảng cách cục bộ; thách thức giữ khoảng cách trong các kích thước giảm), nhưng cũng có thể là có thể, với một số cảnh báo / thỏa hiệp nhất định.


1
Cách tiếp cận 2 là thiếu sót - ngoài thực tế là nhóm isometry được tạo thành từ sự phản xạ, xoay và dịch (do đó không chỉ xoay, mà bất kỳ thành phần nào trong ba: tuy nhiên, đây chỉ là một kỹ thuật), dù sao thì nhóm isometry được tạo ra từ mệnh đề từ một không gian số liệu Xlên chính nó Do đó, chúng bảo toàn kích thước, và như vậy, không phải là loại biến đổi được học bởi bộ tự động, nhưng không phải vì tính phi tuyến tính (bộ mã hóa tự động không có lớp nút cổ chai có thể học chuyển đổi nhận dạng): vì giảm kích thước.
DeltaIV

@DeltaIV Đã thêm một 'chỉnh sửa' để giải quyết vấn đề của bạn, nghĩa là tôi đồng ý rằng các bộ mã hóa tự động không nằm trong khoảng cách bảo toàn chung; và tôi đã tiến thêm một bước và suy nghĩ, "người ta có thể làm gì nếu người ta muốn họ giữ khoảng cách?".
Hugh Perkins

1
@DeltaIV Thật ra, tôi nhận ra, tôi đã không đọc hết bình luận của bạn trước khi trả lời: D đã thêm 'chỉnh sửa 2', giải quyết phần giảm kích thước, mà tôi thú nhận, tôi đã không nghĩ xa hơn trước đó :)
Hugh Perkins
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.