Tính năng được trích xuất bằng cách gộp tối đa so với gộp chung


8

Trong nghiên cứu sâu, và đó là ứng dụng cho thị giác máy tính, có thể nói loại tính năng nào của hai loại trích xuất gộp này không? ví dụ: có thể nói rằng max pool trích xuất các cạnh? Chúng ta có thể nói một cái gì đó tương tự liên quan đến gộp chung?

PS cảm thấy thoải mái để giới thiệu nếu stackoverflow phù hợp hơn.

Câu trả lời:


11

Tôi sẽ không nói rằng một trong hai trích đặc trưng. Thay vào đó, đó là các lớp chập xây dựng / trích xuất các tính năng và các lớp gộp lại nén chúng với độ trung thực thấp hơn. Sự khác biệt nằm ở cách nén xảy ra và loại độ trung thực được giữ lại:

  • Một lớp nhóm tối đa được nén bằng cách kích hoạt tối đa trong một khối. Nếu bạn có một khối với phần lớn kích hoạt nhỏ, nhưng một chút kích hoạt lớn, bạn sẽ mất thông tin về các kích hoạt thấp. Tôi nghĩ về điều này khi nói rằng "loại tính năng này đã được phát hiện trong khu vực chung này".
  • Một lớp pool trung bình nén bằng cách kích hoạt trung bình trong một khối. Nếu kích hoạt lớn được cân bằng bởi kích hoạt tiêu cực, kích hoạt nén tổng thể sẽ trông giống như không kích hoạt chút nào. Mặt khác, bạn giữ lại một số thông tin về kích hoạt thấp trong ví dụ trước.

4

ý kiến của tôi là nhóm tối đa và có nghĩa là không liên quan gì đến loại tính năng, nhưng với tính bất biến dịch.

Hãy tưởng tượng việc học cách nhận ra một 'A' so với 'B' (không có biến thể trong các pixel của A và B). Đầu tiên ở một vị trí cố định trong hình ảnh. Điều này có thể được thực hiện bằng hồi quy logistic (1 nơ ron): các trọng số cuối cùng là một khuôn mẫu của sự khác biệt A - B.

Bây giờ điều gì xảy ra nếu bạn đào tạo để nhận ra trên các vị trí khác nhau trong hình ảnh. Bạn không thể làm điều này với hồi quy logistic, quét qua hình ảnh (nghĩa là xấp xỉ một lớp chập với một bộ lọc) và gắn nhãn tất cả các lần quét của hình ảnh A hoặc B là phù hợp, bởi vì học từ các vị trí khác nhau sẽ cản trở - hiệu quả là bạn cố gắng học trung bình của AB là A / B được truyền qua bộ lọc của bạn - nhưng đây chỉ là một vệt mờ.

với việc học tập tối đa chỉ được thực hiện trên vị trí kích hoạt tối đa (hy vọng tập trung vào chữ cái). Tôi không chắc lắm về việc gộp chung - tôi sẽ tưởng tượng rằng việc học nhiều hơn (tức là điều chỉnh trọng lượng) được thực hiện tại vị trí kích hoạt tối đa và điều đó tránh làm mờ) ...

Tôi khuyến khích bạn chỉ nên thực hiện một mạng đơn giản như vậy với 2 lớp và 1 bộ lọc cho lớp chập, sau đó gộp tối đa / trung bình và 1 nút đầu ra và kiểm tra trọng số / hiệu suất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.