Mạng thần kinh (ví dụ, mạng nơ ron tích chập) có thể có trọng số âm không?


13

Có thể có trọng số âm (sau đủ epoch) cho các mạng thần kinh tích chập sâu khi chúng ta sử dụng ReLU cho tất cả các lớp kích hoạt không?


Tôi không thấy bất kỳ lý do tại sao họ không thể tiêu cực. Có một lý do / quan sát cụ thể mà bạn có trong tâm trí?
Sobi

Tôi chỉ đang tưởng tượng quá trình SGD và suy nghĩ về việc liệu trọng lượng âm có phổ biến và có thể hay không.
RockTheStar

Anh ta nghĩ rằng vì "trọng lượng" giống với các khớp thần kinh, các liên kết giữa các nơ-ron, vậy làm sao chúng ta có thể có 2 khớp thần kinh đối với một nơ-ron ?? Tôi đã vấp ngã ở đây sau khi tìm kiếm chính xác điều tương tự trên google ... Tôi đoán dù sao thì điều đó cũng có thể xảy ra, điều đó có nghĩa là cuối cùng có một khớp thần kinh hoặc liên kết bị thiếu và "bước nhảy" để đến b từ một mặt khác bị trừ khỏi phép tính, nhưng tôi không chắc lắm, chỉ nghĩ thôi
Hãy thử

Câu trả lời:


10

Các đơn vị tuyến tính chỉnh lưu (ReLUs) chỉ làm cho đầu ra của các nơ-ron không âm. Các tham số của mạng, tuy nhiên, có thể, và sẽ, trở nên tích cực hoặc tiêu cực tùy thuộc vào dữ liệu đào tạo.

Dưới đây là hai lý do tôi có thể nghĩ ra ngay bây giờ để biện minh (bằng trực giác) lý do tại sao một số tham số sẽ trở thành tiêu cực:

  1. sự chính quy của các tham số (hay còn gọi là phân rã trọng lượng); sự thay đổi trong các giá trị tham số giúp dự đoán có thể thực hiện được và nếu các tham số được tập trung quanh 0 (nghĩa là giá trị trung bình của chúng gần bằng 0), thì chỉ tiêu (là một bộ chuẩn hóa) là thấp.2

  2. mặc dù độ dốc của đầu ra của một lớp đối với các tham số của lớp phụ thuộc vào đầu vào của lớp (luôn luôn giả định rằng lớp trước vượt qua các đầu ra của nó thông qua ReLU), tuy nhiên, độ dốc của lỗi (đi kèm từ các lớp gần hơn với các lớp đầu ra cuối cùng) có thể là dương hoặc âm, khiến SGD có thể làm cho một số giá trị tham số âm thành sau khi thực hiện bước chuyển tiếp tiếp theo. Cụ thể hơn, hãy để , và biểu thị đầu vào, đầu ra và các tham số của một lớp trong mạng thần kinh. Ngoài ra, hãy để là lỗi cuối cùng của mạng do một số mẫu đào tạo gây ra. Độ dốc của lỗi liên quan đến được tính làO w E w EIOwEw Ok=O,kEw=(k=1KEOk)Okw ; lưu ý rằng (xem hình bên dưới):Ok=O,k

nhập mô tả hình ảnh ở đây


1

Hãy tưởng tượng rằng bạn có trọng lượng tối ưu mà tất cả đều không âm.

Bây giờ đảo ngược một số biến đầu vào . Mạng tối ưu cho thiết lập này là với các trọng số của các cạnh đảo ngược, do đó các trọng số mới là không dương. { x i , y }xi=xi{xi,y}


-3

Trừ khi bạn sử dụng một chức năng kích hoạt khác, ví dụ Leaky ReLU. Trọng lượng chính xác của các lớp sau lớp đầu tiên là không âm bất kể có bao nhiêu kỷ nguyên trong đào tạo.


1
Cảm ơn rất nhiều! Bạn có thể giải thích thêm một chút gièm pha về cách Leaky ReLU có thể dẫn đến trọng lượng âm?
RockTheStar

Có vẻ như tuyên bố là không đúng sự thật. Tôi đã thực hiện đào tạo về mạng kích hoạt ReLU, các ma trận trong phép biến đổi affine ("Ws") và các độ lệch ("b '"), mà tôi cho rằng trong câu hỏi này là trọng số, sẽ nhận được các giá trị âm.
họ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.