Làm thế nào các mạng thần kinh có thể đối phó với các kích cỡ đầu vào khác nhau?

42

Theo như tôi có thể nói, mạng lưới thần kinh có một số lượng tế bào thần kinh cố định trong lớp đầu vào.

Nếu các mạng thần kinh được sử dụng trong ngữ cảnh như NLP, các câu hoặc khối văn bản có kích cỡ khác nhau sẽ được đưa vào mạng. Làm thế nào là kích thước đầu vào khác nhau được điều chỉnh với kích thước cố định của lớp đầu vào của mạng? Nói cách khác, làm thế nào một mạng như vậy đủ linh hoạt để xử lý một đầu vào có thể ở bất kỳ đâu từ một từ đến nhiều trang văn bản?

Nếu giả định của tôi về một số nơ-ron đầu vào cố định là sai và các nơ-ron đầu vào mới được thêm vào / loại bỏ khỏi mạng để phù hợp với kích thước đầu vào thì tôi không thấy chúng có thể được đào tạo như thế nào.

Tôi đưa ra ví dụ về NLP, nhưng rất nhiều vấn đề có kích thước đầu vào vốn không thể đoán trước. Tôi quan tâm đến cách tiếp cận chung để đối phó với điều này.

Đối với hình ảnh, rõ ràng bạn có thể tăng / giảm mẫu đến một kích thước cố định, nhưng, đối với văn bản, đây dường như là một cách tiếp cận không thể vì việc thêm / xóa văn bản sẽ thay đổi ý nghĩa của đầu vào ban đầu.

— Thăng thiên
nguồn

bạn có thể làm rõ những gì bạn có nghĩa là bằng cách downsampling đến một kích thước cố định? Downsampling được thực hiện như thế nào?

— Charlie Parker

có liên quan: stats.stackexchange.com/questions/388859/ Kiếm

— Charlie Parker

36

Ba khả năng đến với tâm trí.

Đơn giản nhất là đệm không . Về cơ bản, bạn có kích thước đầu vào khá lớn và chỉ cần thêm số không nếu đầu vào cụ thể của bạn quá nhỏ. Tất nhiên, điều này khá hạn chế và chắc chắn không hữu ích nếu đầu vào của bạn dao động từ một vài từ đến toàn văn.

NN tái phát (RNN) là một NN rất tự nhiên để chọn nếu bạn có các văn bản có kích thước khác nhau làm đầu vào. Bạn nhập các từ dưới dạng vectơ từ (hoặc nhúng) chỉ một từ khác và trạng thái bên trong của RNN được cho là mã hóa nghĩa của chuỗi đầy đủ các từ. Đây là một trong những giấy tờ trước đó.

Một khả năng khác là sử dụng NN đệ quy . Về cơ bản, đây là một hình thức tiền xử lý trong đó một văn bản được giảm đệ quy xuống một số lượng nhỏ hơn các vectơ từ cho đến khi chỉ còn một vectơ - đầu vào của bạn, được cho là mã hóa toàn bộ văn bản. Điều này rất có ý nghĩa từ quan điểm ngôn ngữ nếu đầu vào của bạn bao gồm các câu (có thể thay đổi rất nhiều về kích thước), bởi vì các câu được cấu trúc đệ quy. Ví dụ: vectơ từ cho "người đàn ông", nên tương tự như vectơ từ cho "người đàn ông nhầm vợ là mũ", vì cụm danh từ hoạt động như danh từ, v.v. Thông thường, bạn có thể sử dụng thông tin ngôn ngữ để hướng dẫn đệ quy của bạn trên câu. Nếu bạn muốn đi xa hơn bài viết Wikipedia, đây có lẽ là một khởi đầu tốt .

— BlindKungFuMaster
nguồn

1

Sự khác biệt giữa cái mà bạn gọi là "NN đệ quy" và RNN là gì? R là để đệ quy ... Ngoài ra, một vài trích dẫn và con trỏ sẽ hữu ích.

— Eric Platon

3

R là cho tái phát. Định kỳ có nghĩa là thêm đầu vào tuyến tính vào cùng một NN nhiều lần. Đệ quy có nghĩa là nhập dữ liệu dọc theo cấu trúc cây.

— BlindKungFuMaster

@BlindKungFuMaster 0 đệm với mặt nạ cho MLP có tốt không và không ảnh hưởng xấu đến độ chính xác?

— DINA TAKLIT

12

Những người khác đã được đề cập:

không lót
RNN
NN đệ quy

vì vậy tôi sẽ thêm một khả năng khác: sử dụng số lần kết hợp khác nhau tùy thuộc vào kích thước của đầu vào. Đây là một cuốn sách tuyệt vời sao lưu phương pháp này:

Hãy xem xét một bộ sưu tập hình ảnh, trong đó mỗi hình ảnh có chiều rộng và chiều cao khác nhau. Không rõ làm thế nào để mô hình hóa các đầu vào như vậy với ma trận trọng số có kích thước cố định. Convolution là đơn giản để áp dụng; hạt nhân chỉ đơn giản được áp dụng một số lần khác nhau tùy thuộc vào kích thước của đầu vào và đầu ra của quy mô hoạt động tích chập tương ứng.

Lấy từ trang 360. Bạn có thể đọc thêm để xem một số phương pháp khác.

— Salvador Dali
nguồn

1

Theo tôi, cách tiếp cận này sẽ chỉ hoạt động nếu 1) tỷ lệ khung hình (AR) của tất cả các hình ảnh đầu vào là như nhau, 2) bạn bán lại tất cả các hình ảnh cho một AR đã cho hoặc 3) hình ảnh không đệm của bạn để buộc một đưa ra AR.

— Matt Wenham

@Salvador Dali có thể đệm "0" với mặt nạ là một giải pháp tốt cho MLP?

— DINA TAKLIT

Tôi không thể tìm thấy văn bản bạn trích dẫn trong câu trả lời của bạn trong cuốn sách. Có lẽ nó đã có mặt ban đầu và đã được gỡ bỏ sau đó? Trang 354 hiện có một đoạn bắt đầu tương tự, nhưng không bao giờ sử dụng số lớp thay đổi (nhưng thay vào đó là kích thước đầu ra thay đổi).

— jochen

7

Trong NLP, bạn có một thứ tự vốn có của các đầu vào để RNN là một lựa chọn tự nhiên.

Đối với các đầu vào có kích thước thay đổi trong đó không có thứ tự cụ thể giữa các đầu vào, người ta có thể thiết kế các mạng:

sử dụng sự lặp lại của cùng một mạng con cho mỗi nhóm đầu vào (nghĩa là có trọng số được chia sẻ). Mạng con lặp đi lặp lại này học một đại diện của (các nhóm) đầu vào.
sử dụng một thao tác trên biểu diễn của các đầu vào có đối xứng giống như các đầu vào. Đối với dữ liệu bất biến thứ tự, tính trung bình các biểu diễn từ các mạng đầu vào là một lựa chọn khả thi.
sử dụng mạng đầu ra để giảm thiểu chức năng mất ở đầu ra dựa trên sự kết hợp các biểu diễn của đầu vào.

Cấu trúc trông như sau:

Các mạng tương tự đã được sử dụng để tìm hiểu mối quan hệ giữa các đối tượng ( arxiv: 1702.05068 ).

Một ví dụ đơn giản về cách học phương sai mẫu của một tập hợp các giá trị có kích thước thay đổi được đưa ra ở đây (từ chối trách nhiệm: Tôi là tác giả của bài viết được liên kết).

— Andre Holzner
nguồn