[Câu hỏi này cũng được đặt ra tại stack stack]
Câu hỏi ngắn gọn
Tôi đang nghiên cứu các mạng nơ ron tích chập và tôi tin rằng các mạng này không xử lý tương ứng mọi nơ ron đầu vào (pixel / tham số). Hãy tưởng tượng chúng ta có một mạng lưới sâu (nhiều lớp) áp dụng tích chập trên một số hình ảnh đầu vào. Các tế bào thần kinh ở "giữa" của hình ảnh có nhiều con đường duy nhất đến nhiều tế bào thần kinh lớp sâu hơn, điều đó có nghĩa là một biến thể nhỏ trong các tế bào thần kinh giữa có tác động mạnh đến đầu ra. Tuy nhiên, các nơ-ron ở rìa ảnh chỉ có cách (hoặc, tùy thuộc vào cách thực hiện chính xác, theo thứ tự ) các đường dẫn trong đó thông tin của chúng chảy qua biểu đồ. Có vẻ như đây là "dưới đại diện".
Tôi lo ngại về điều này, vì sự phân biệt các nơ ron cạnh này theo cấp số nhân với độ sâu (số lớp) của mạng. Ngay cả việc thêm một lớp tổng hợp tối đa sẽ không ngăn được sự gia tăng theo cấp số nhân, chỉ có một kết nối đầy đủ mang lại tất cả các tế bào thần kinh trên cùng một bước. Tuy nhiên, tôi không tin rằng lý luận của mình là đúng, vì vậy câu hỏi của tôi là:
- Tôi có đúng rằng hiệu ứng này diễn ra trong các mạng chập sâu?
- Có bất kỳ lý thuyết về điều này, nó đã bao giờ được đề cập trong văn học?
- Có cách nào để khắc phục hiệu ứng này?
Bởi vì tôi không chắc liệu điều này có cung cấp đủ thông tin hay không, tôi sẽ giải thích thêm một chút về tuyên bố vấn đề và tại sao tôi tin rằng đây là một vấn đề đáng lo ngại.
Giải thích chi tiết hơn
Hãy tưởng tượng chúng ta có một mạng lưới thần kinh sâu sắc lấy hình ảnh làm đầu vào. Giả sử chúng ta áp dụng bộ lọc tích chập pixel trên ảnh, trong đó chúng ta thay đổi cửa sổ chập bằng pixel mỗi lần. Điều này có nghĩa là mỗi nơ-ron trong đầu vào sẽ gửi kích hoạt của nó tới nơ-ron ở lớp . Mỗi tế bào thần kinh này có thể gửi kích hoạt của chúng tới khác , sao cho tế bào thần kinh trên cùng của chúng ta được đại diện trong tế bào thần kinh đầu ra, v.v.
Tuy nhiên, điều này không đúng với các nơ-ron ở các cạnh: chúng chỉ có thể được biểu diễn trong một số lượng nhỏ cửa sổ chập, do đó khiến chúng kích hoạt (theo thứ tự) chỉ có nơ-ron ở lớp tiếp theo. Sử dụng các thủ thuật như phản chiếu dọc theo các cạnh sẽ không giúp được điều này: các nơ-ron lớp thứ hai sẽ được chiếu ở rìa, điều đó có nghĩa là các nơ-ron lớp thứ hai sẽ được thể hiện quá mức (do đó hạn chế tầm quan trọng của tế bào thần kinh cạnh của chúng tôi là tốt). Có thể thấy, sự khác biệt này quy mô theo cấp số nhân với số lượng lớp.
Tôi đã tạo một hình ảnh để trực quan hóa vấn đề, có thể tìm thấy ở đây (Tôi không được phép đưa hình ảnh vào bài đăng). Mạng này có một cửa sổ chập có kích thước . Các con số bên cạnh tế bào thần kinh chỉ ra số lượng đường dẫn xuống tế bào thần kinh sâu nhất. Hình ảnh gợi nhớ đến Tam giác của Pascal .
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_probols_stackxchange.png?dl=0
Tại sao điều này là một vấn đề?
Hiệu ứng này dường như không phải là vấn đề ngay từ cái nhìn đầu tiên: Về nguyên tắc, các trọng số sẽ tự động điều chỉnh theo cách mà mạng thực hiện công việc của nó. Hơn nữa, các cạnh của một hình ảnh dù sao cũng không quan trọng trong nhận dạng hình ảnh. Hiệu ứng này có thể không đáng chú ý trong các thử nghiệm nhận dạng hình ảnh hàng ngày, nhưng nó vẫn khiến tôi lo lắng vì hai lý do: 1. khái quát hóa cho các ứng dụng khác và 2. vấn đề phát sinh trong trường hợp mạng rất sâu.
1. Có thể có các ứng dụng khác, như nhận dạng giọng nói hoặc âm thanh, trong đó không đúng sự thật là các nơ-ron trung bình là quan trọng nhất. Áp dụng tích chập thường được thực hiện trong lĩnh vực này, nhưng tôi không thể tìm thấy bất kỳ bài báo nào đề cập đến hiệu ứng mà tôi quan tâm.
2. mạng Rất sâu sẽ thấy một cấp số nhân ảnh hưởng xấu của các phân biệt đối xử của tế bào thần kinh ranh giới, có nghĩa là tế bào thần kinh trung ương có thể được đại diện quá mức bởi nhiều theo độ (tưởng tượng chúng ta có lớp như vậy mà các ví dụ trên sẽ cung cấp cách các tế bào thần kinh trung ương có thể chiếu thông tin của họ). Khi một lớp tăng số lượng lớp, một lớp sẽ bị ràng buộc để đạt đến một giới hạn mà trọng lượng không thể bù một cách khả thi cho hiệu ứng này.
Bây giờ hãy tưởng tượng chúng ta làm nhiễu loạn tất cả các tế bào thần kinh bằng một lượng nhỏ. Các nơ-ron trung tâm sẽ làm cho đầu ra thay đổi mạnh hơn theo một số bậc độ lớn, so với các nơ-ron cạnh. Tôi tin rằng đối với các ứng dụng chung và cho các mạng rất sâu, nên tìm cách khắc phục vấn đề của tôi?