Mạng lưới thần kinh - ý nghĩa của trọng lượng


11

Tôi đang sử dụng NN chuyển tiếp. Tôi hiểu khái niệm này, nhưng câu hỏi của tôi là về trọng lượng. Làm thế nào bạn có thể giải thích chúng, tức là chúng đại diện cho cái gì hoặc làm thế nào chúng có thể bị phá hủy (chỉ bao gồm các hệ số chức năng)? Tôi đã tìm thấy một thứ gọi là "không gian của trọng lượng", nhưng tôi không chắc nó có nghĩa gì.


Câu trả lời:


6

Trọng lượng riêng thể hiện sức mạnh của các kết nối giữa các đơn vị. Nếu trọng số từ đơn vị A đến đơn vị B có cường độ lớn hơn (tất cả những thứ khác đều bằng nhau), điều đó có nghĩa là A có ảnh hưởng lớn hơn B (nghĩa là tăng hoặc giảm mức độ kích hoạt của B).

Bạn cũng có thể nghĩ về tập hợp các trọng số đến cho một đơn vị như đo lường những gì đơn vị đó 'quan tâm'. Điều này là dễ dàng nhất để nhìn thấy ở lớp đầu tiên. Nói rằng chúng tôi có một mạng xử lý hình ảnh. Các đơn vị sớm nhận được kết nối có trọng số từ các pixel đầu vào. Kích hoạt của mỗi đơn vị là tổng các giá trị cường độ pixel, được truyền qua chức năng kích hoạt. Vì chức năng kích hoạt là đơn điệu, kích hoạt của một đơn vị nhất định sẽ cao hơn khi các pixel đầu vào tương tự với các trọng số đến của đơn vị đó (theo nghĩa là có một sản phẩm chấm lớn). Vì vậy, bạn có thể nghĩ về các trọng số như một tập hợp các hệ số bộ lọc, xác định một tính năng hình ảnh. Đối với các đơn vị ở các lớp cao hơn (trong mạng tiếp liệu), các đầu vào không còn từ pixel nữa mà từ các đơn vị ở các lớp thấp hơn. Vì vậy, các trọng số đến giống như '

Không chắc chắn về nguồn ban đầu của bạn, nhưng nếu tôi đang nói về 'không gian trọng lượng', tôi sẽ đề cập đến tập hợp tất cả các giá trị có thể có của tất cả các trọng số trong mạng.


với tham chiếu đến câu trả lời của bạn ở trên, 'kích hoạt của một đơn vị nhất định sẽ cao hơn khi các pixel đầu vào tương tự với trọng số đến của đơn vị đó (theo nghĩa là có một sản phẩm chấm lớn)', bạn có thể giải thích rõ hơn về điều này. Có nghĩa là nếu các đầu vào tương tự như các trọng số giữa đơn vị đầu vào và đơn vị ẩn, thì kích hoạt đơn vị ẩn sẽ cao hơn?
Ironluca

1
Điều đó có nghĩa là kích hoạt của đơn vị ẩn sẽ lớn hơn khi sản phẩm chấm giữa đầu vào và trọng lượng của đơn vị ẩn lớn hơn. Người ta có thể nghĩ về sản phẩm chấm như một thước đo tương đối. Giả sử chúng ta muốn so sánh hai vectơ và (có cùng định mức) với vectơ thứ ba . tương tự hơn nếu , theo nghĩa là góc giữa và nhỏ hơn góc giữa và . Tôi nói tương đối vì nó phụ thuộc vào định mức. Xem en.wikipedia.org/wiki/Cosine_distance .x 2 y x 1 y x 2 x 1y > x 2y x 1 y x 2 yx1x2yx1yx2x1y>x2yx1yx2y
user20160

6

Vâng, nó phụ thuộc vào kiến ​​trúc mạng và lớp cụ thể. Nói chung, các NN không thể hiểu được, đây là nhược điểm lớn của chúng trong phân tích dữ liệu thương mại (trong đó mục tiêu của bạn là khám phá những hiểu biết có thể hành động từ mô hình của bạn).

Nhưng tôi thích mạng chập chững, vì chúng khác nhau! Mặc dù các lớp trên của chúng học các khái niệm rất trừu tượng, có thể sử dụng để học chuyển và phân loại, không thể hiểu được một cách dễ dàng, các lớp dưới cùng của chúng học các bộ lọc Gabor trực tiếp từ dữ liệu thô (và do đó có thể hiểu là các bộ lọc như vậy). Hãy xem ví dụ từ một bài giảng của Le Cun:

nhập mô tả hình ảnh ở đây

Ngoài ra, M. Zeiler ( pdf ) và nhiều nhà nghiên cứu khác đã phát minh ra phương pháp rất sáng tạo để "hiểu" mạng lưới và đảm bảo nó học được một cái gì đó hữu ích được gọi là mạng Deconvolutional , trong đó họ 'theo dõi' một số mạng lưới bằng cách chuyển tiếp qua hình ảnh đầu vào và ghi nhớ tế bào thần kinh có kích hoạt lớn nhất mà bức ảnh. Điều này mang đến sự hướng nội tuyệt đẹp như thế này (một vài lớp được hiển thị bên dưới):

Hướng nội mạng kết hợp bởi M.Zeiler

Hình ảnh màu xám ở phía bên trái là kích hoạt nơ-ron (cường độ lớn hơn - kích hoạt lớn hơn) bằng hình ảnh màu ở phía bên phải. Chúng tôi thấy rằng các kích hoạt này là biểu diễn bộ xương của các bức ảnh thực, nghĩa là các kích hoạt không phải là ngẫu nhiên. Vì vậy, chúng tôi có một hy vọng vững chắc, rằng mạng lưới của chúng tôi thực sự đã học được điều gì đó hữu ích và sẽ có sự khái quát hóa tốt trong các bức ảnh không nhìn thấy.


1

Tôi nghĩ rằng bạn đang cố gắng quá nhiều vào mô hình không có quá nhiều khả năng diễn giải. Mạng nơ-ron (NN) là một trong những mô hình hộp đen sẽ mang lại cho bạn hiệu suất tốt hơn, nhưng thật khó để hiểu những gì đang diễn ra bên trong. Thêm vào đó, rất có thể có hàng ngàn thậm chí hàng triệu trọng lượng bên trong NN.

NN là một hàm phi lồi phi tuyến tính rất lớn có thể có lượng cực tiểu cục bộ lớn. Nếu bạn luyện nó nhiều lần, với điểm bắt đầu khác nhau, trọng lượng sẽ khác nhau. Bạn có thể đưa ra một số cách để hình dung các trọng số bên trong, nhưng nó cũng không cung cấp cho bạn quá nhiều hiểu biết.

Đây là một ví dụ về trực quan hóa NN cho dữ liệu MNIST . Hình trên bên phải (được sao chép bên dưới) hiển thị các tính năng được chuyển đổi sau khi áp dụng các trọng số.

nhập mô tả hình ảnh ở đây


-1

Trọng lượng đơn giản là xác suất.

Làm thế nào có khả năng một kết nối sẽ đưa ra câu trả lời đúng hoặc sai. Thậm chí kết quả sai trong lưới nhiều lớp có thể hữu ích. Nói rằng một cái gì đó không phải là ..


tò mò ai đã hạ bệ tôi, mạng lưới thần kinh có nguồn gốc trong thống kê. tìm hiểu lịch sử của bạn ..
user3800527

2
Tôi đã không downvote, nhưng câu trả lời trung thực không có vẻ rất hữu ích. Có, một số kiến ​​trúc mạng (như máy Boltzmann hoặc mạng Hopfield) được lấy cảm hứng từ cơ học thống kê, nhưng ngay cả ở đó cũng không có xác suất, theo nghĩa là "giới hạn tần suất tương đối của một số sự kiện". Trọng lượng cũng có thể âm hoặc lớn hơn một, xác suất không thể.
nikie

hít vào dấu hiệu phản ánh câu trả lời, con số xác suất của nó.
dùng3800527

Điều này chỉ đúng với các kiến ​​trúc hạn chế và các loại nhãn đào tạo để học.
Emil
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.