Mạng lưới thần kinh chuyển đổi: Không phải là tế bào thần kinh trung ương được đại diện quá mức trong đầu ra?


30

[Câu hỏi này cũng được đặt ra tại stack stack]

Câu hỏi ngắn gọn

Tôi đang nghiên cứu các mạng nơ ron tích chập và tôi tin rằng các mạng này không xử lý tương ứng mọi nơ ron đầu vào (pixel / tham số). Hãy tưởng tượng chúng ta có một mạng lưới sâu (nhiều lớp) áp dụng tích chập trên một số hình ảnh đầu vào. Các tế bào thần kinh ở "giữa" của hình ảnh có nhiều con đường duy nhất đến nhiều tế bào thần kinh lớp sâu hơn, điều đó có nghĩa là một biến thể nhỏ trong các tế bào thần kinh giữa có tác động mạnh đến đầu ra. Tuy nhiên, các nơ-ron ở rìa ảnh chỉ có cách (hoặc, tùy thuộc vào cách thực hiện chính xác, theo thứ tự ) các đường dẫn trong đó thông tin của chúng chảy qua biểu đồ. Có vẻ như đây là "dưới đại diện".11

Tôi lo ngại về điều này, vì sự phân biệt các nơ ron cạnh này theo cấp số nhân với độ sâu (số lớp) của mạng. Ngay cả việc thêm một lớp tổng hợp tối đa sẽ không ngăn được sự gia tăng theo cấp số nhân, chỉ có một kết nối đầy đủ mang lại tất cả các tế bào thần kinh trên cùng một bước. Tuy nhiên, tôi không tin rằng lý luận của mình là đúng, vì vậy câu hỏi của tôi là:

  • Tôi có đúng rằng hiệu ứng này diễn ra trong các mạng chập sâu?
  • Có bất kỳ lý thuyết về điều này, nó đã bao giờ được đề cập trong văn học?
  • Có cách nào để khắc phục hiệu ứng này?

Bởi vì tôi không chắc liệu điều này có cung cấp đủ thông tin hay không, tôi sẽ giải thích thêm một chút về tuyên bố vấn đề và tại sao tôi tin rằng đây là một vấn đề đáng lo ngại.

Giải thích chi tiết hơn

Hãy tưởng tượng chúng ta có một mạng lưới thần kinh sâu sắc lấy hình ảnh làm đầu vào. Giả sử chúng ta áp dụng bộ lọc tích chập pixel trên ảnh, trong đó chúng ta thay đổi cửa sổ chập bằng pixel mỗi lần. Điều này có nghĩa là mỗi nơ-ron trong đầu vào sẽ gửi kích hoạt của nó tới nơ-ron ở lớp . Mỗi tế bào thần kinh này có thể gửi kích hoạt của chúng tới khác , sao cho tế bào thần kinh trên cùng của chúng ta được đại diện trong tế bào thần kinh đầu ra, v.v.64×64416×16= =26522652652

Tuy nhiên, điều này không đúng với các nơ-ron ở các cạnh: chúng chỉ có thể được biểu diễn trong một số lượng nhỏ cửa sổ chập, do đó khiến chúng kích hoạt (theo thứ tự) chỉ có nơ-ron ở lớp tiếp theo. Sử dụng các thủ thuật như phản chiếu dọc theo các cạnh sẽ không giúp được điều này: các nơ-ron lớp thứ hai sẽ được chiếu ở rìa, điều đó có nghĩa là các nơ-ron lớp thứ hai sẽ được thể hiện quá mức (do đó hạn chế tầm quan trọng của tế bào thần kinh cạnh của chúng tôi là tốt). Có thể thấy, sự khác biệt này quy mô theo cấp số nhân với số lượng lớp.1

Tôi đã tạo một hình ảnh để trực quan hóa vấn đề, có thể tìm thấy ở đây (Tôi không được phép đưa hình ảnh vào bài đăng). Mạng này có một cửa sổ chập có kích thước . Các con số bên cạnh tế bào thần kinh chỉ ra số lượng đường dẫn xuống tế bào thần kinh sâu nhất. Hình ảnh gợi nhớ đến Tam giác của Pascal .3

https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_probols_stackxchange.png?dl=0

Tại sao điều này là một vấn đề?

Hiệu ứng này dường như không phải là vấn đề ngay từ cái nhìn đầu tiên: Về nguyên tắc, các trọng số sẽ tự động điều chỉnh theo cách mà mạng thực hiện công việc của nó. Hơn nữa, các cạnh của một hình ảnh dù sao cũng không quan trọng trong nhận dạng hình ảnh. Hiệu ứng này có thể không đáng chú ý trong các thử nghiệm nhận dạng hình ảnh hàng ngày, nhưng nó vẫn khiến tôi lo lắng vì hai lý do: 1. khái quát hóa cho các ứng dụng khác và 2. vấn đề phát sinh trong trường hợp mạng rất sâu.

1. Có thể có các ứng dụng khác, như nhận dạng giọng nói hoặc âm thanh, trong đó không đúng sự thật là các nơ-ron trung bình là quan trọng nhất. Áp dụng tích chập thường được thực hiện trong lĩnh vực này, nhưng tôi không thể tìm thấy bất kỳ bài báo nào đề cập đến hiệu ứng mà tôi quan tâm.

2. mạng Rất sâu sẽ thấy một cấp số nhân ảnh hưởng xấu của các phân biệt đối xử của tế bào thần kinh ranh giới, có nghĩa là tế bào thần kinh trung ương có thể được đại diện quá mức bởi nhiều theo độ (tưởng tượng chúng ta có lớp như vậy mà các ví dụ trên sẽ cung cấp cách các tế bào thần kinh trung ương có thể chiếu thông tin của họ). Khi một lớp tăng số lượng lớp, một lớp sẽ bị ràng buộc để đạt đến một giới hạn mà trọng lượng không thể bù một cách khả thi cho hiệu ứng này.1026510

Bây giờ hãy tưởng tượng chúng ta làm nhiễu loạn tất cả các tế bào thần kinh bằng một lượng nhỏ. Các nơ-ron trung tâm sẽ làm cho đầu ra thay đổi mạnh hơn theo một số bậc độ lớn, so với các nơ-ron cạnh. Tôi tin rằng đối với các ứng dụng chung và cho các mạng rất sâu, nên tìm cách khắc phục vấn đề của tôi?


8
Tôi không thể trả lời đầy đủ câu hỏi của bạn, nhưng tôi đã tìm thấy bài viết này: cs.utoronto.ca/~kriz/conv-cifar10-aug2010.pdf giải quyết vấn đề của bạn. Họ nói về các giải pháp khác nhau, 1) đệm các cạnh của đầu vào bằng 0, 2) thêm các thành phần được kết nối ngẫu nhiên trên toàn cầu hoặc 3) sửa chữa và chuyển tiếp các cạnh để không mất thông tin cạnh. Gần đây tôi đã tò mò về cùng một vấn đề và tìm thấy câu hỏi của bạn. Tôi vẫn đang lướt qua các chi tiết của bài báo đó. Hy vọng nó giúp.
nfmcclure 4/2/2015

Cảm ơn, đây chính xác là những gì tôi đang tìm kiếm! Ấn tượng rằng điều này là đáng chú ý với chỉ 2 lớp. Đối với những TL; DR toàn bộ bài báo: Sử dụng kết hợp 1) (đệm không) và 2) (kết nối toàn cầu ngẫu nhiên) đã được tìm thấy là phương thuốc tốt nhất.
Koen


Tôi tò mò, nó là không đủ bằng cách sử dụng một bù không chồng chéo? Vì vậy, trong ví dụ của bạn, bạn có các bản vá 64x64 và bạn di chuyển đầu vào 64 pixel mỗi lần trong khi áp dụng tích chập. ('ca' của bạn là 'phần bù' của tôi). Đó là, tôi đoán, giống như làm không đệm?
Renthal

1
Xin lỗi vì đã không trả lời trong một thời gian, tôi không làm việc trên NN nữa. Tuy nhiên, tôi nghĩ rằng tôi có thể trả lời các câu hỏi, mặc dù tôi nhận ra mục tiêu lớn hơn của mình là hiểu rõ hơn những gì đang diễn ra (điều mà tôi vẫn không làm). 1) Hiệu ứng này dường như diễn ra thực sự. 2) Bài báo được liên kết ở trên mô tả nó và 3) cũng khám phá những cách để vượt qua nó. Đối với Renthal: Các bản vá không chồng lấp (chọn offset = kích thước.) Thực sự sẽ khắc phục vấn đề của tôi, nhưng mọi người thường tìm các bản vá chồng chéo để hoạt động tốt hơn. Đối với EngrStudent, Xin lỗi, tôi không quen với Bootstrap Resampling.
Koen

Câu trả lời:


4

Các đại diện thưa thớt được mong đợi trong các mô hình phân cấp. Có thể, những gì bạn đang khám phá là một vấn đề nội tại đối với cấu trúc phân cấp của các mô hình học tập sâu. Bạn sẽ tìm thấy khá nhiều bài báo khoa học về "các biểu diễn thưa thớt", đặc biệt là trong nghiên cứu bộ nhớ.

Tôi nghĩ rằng bạn sẽ được hưởng lợi từ việc đọc về "các lĩnh vực thụ thể" trong vỏ thị giác. Không chỉ có các tế bào BẬT và TẮT trong não động vật có vú, mà cả các tế bào RF bắn cả trong khi BẬT và TẮT. Có lẽ vấn đề cạnh / thưa có thể được khắc phục bằng cách cập nhật mô hình để phản ánh khoa học thần kinh hiện tại về thị giác, đặc biệt là trong các mô hình động vật.


3

Bạn đúng rằng đây là một vấn đề nếu tích chập chỉ hoạt động trên các pixel hình ảnh, nhưng vấn đề sẽ biến mất nếu bạn không đệm các hình ảnh (như thường được khuyến nghị). Điều này đảm bảo rằng tích chập sẽ áp dụng bộ lọc cùng số lần cho mỗi pixel.


1
Tôi chưa bị thuyết phục. Không đệm sẽ chỉ tạo ra nhiều pixel đầu ra xung quanh các pixel "trung tâm" mà người ta tìm thấy mà không cần đệm. Các giá trị của các pixel "trung tâm" là hoàn toàn giống nhau, bất kể người dùng sử dụng đệm không nào.
Koen

1
Nếu cửa sổ chập có kích thước , thì bằng cách đệm tất cả các cạnh bằng nhiều số không, bạn sẽ đảm bảo rằng tích chập sẽ tác động lên các pixel cạnh nhiều lần như các pixel bên trong (giả sử bạn làm này tại mỗi lớp chập trong mạng). Trong thực tế, mặc dù không có phần đệm mạnh mẽ như vậy, và thay vào đó làm giảm tầm quan trọng của các pixel cạnh, vì thông tin quan trọng có nhiều khả năng nằm ở gần trung tâm của hình ảnh. n×nn-1
jon_simon

Trực quan hóa tích chập xuống nửa trang này có thể giúp truyền đạt trực giác: cs231n.github.io/convolutional-networks
jon_simon
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.