Điều gì làm cho các mạng thần kinh là một mô hình phân loại phi tuyến?


18

Tôi đang cố gắng hiểu ý nghĩa toán học của các mô hình phân loại phi tuyến tính:

Tôi vừa đọc một bài báo nói về mạng lưới thần kinh là một mô hình phân loại phi tuyến tính.

Nhưng tôi chỉ nhận ra rằng:

nhập mô tả hình ảnh ở đây

Lớp đầu tiên:

h1=x1wx1h1+x2wx1h2

h2=x1wx2h1+x2wx2h2

Lớp tiếp theo

y=bwby+h1wh1y+h2wh2y

Có thể được đơn giản hóa để

=b+(x1wx1h1+x2wx1h2)wh1y+(x1wx2h1+x2wx2h2)wh2y

=b+x1(wh1ywx1h1+wx2h1wh2y)+x2(wh1ywx1h1+wx2h2wh2y)

Một mạng lưới thần kinh hai lớp Chỉ là một hồi quy tuyến tính đơn giản

= =b'+x1*W1'+x2*W2'

Điều này có thể được hiển thị cho bất kỳ số lượng lớp nào, vì sự kết hợp tuyến tính của bất kỳ số lượng trọng lượng nào lại là tuyến tính.

Điều gì thực sự làm cho một mạng lưới thần kinh là một mô hình phân loại phi tuyến tính?
Làm thế nào chức năng kích hoạt sẽ tác động đến tính phi tuyến tính của mô hình?
Bạn có thể giải thích cho tôi?

Câu trả lời:


18

Tôi nghĩ rằng bạn quên chức năng kích hoạt trong các nút trong mạng thần kinh, là phi tuyến tính và sẽ làm cho toàn bộ mô hình phi tuyến tính.

Trong công thức của bạn không hoàn toàn chính xác, ở đâu,

h1w1x1+w2x2

nhưng

h1= =sigmoid(w1x1+w2x2)

trong đó hàm sigmoid như thế này,sigmoid(x)= =11+e-x

nhập mô tả hình ảnh ở đây

Chúng ta hãy sử dụng một ví dụ bằng số để giải thích tác động của hàm sigmoid, giả sử bạn có thì . Mặt khác, giả sử bạn có , và nó gần giống như , không tuyến tính.w1x1+w2x2= =4sigmoid(4)= =0,99w1x1+w2x2= =4000sigmoid(4000)= =1sigmoid(4)


Ngoài ra, tôi nghĩ rằng slide 14 trong hướng dẫn này có thể cho thấy bạn đã làm sai chính xác ở đâu. Đối với vui lòng không phải otuput không phải là -7,65 mà làH1sigmoid(-7,65)

nhập mô tả hình ảnh ở đây


1
Làm thế nào chức năng kích hoạt sẽ tác động đến tính phi tuyến tính của mô hình? Bạn có thể giải thích cho tôi?
Alvaro Joao

3

Bạn đã đúng rằng nhiều lớp tuyến tính có thể tương đương với một lớp tuyến tính. Như các câu trả lời khác đã nói, một hàm kích hoạt phi tuyến cho phép phân loại phi tuyến. Nói rằng một bộ phân loại là phi tuyến có nghĩa là nó có một ranh giới quyết định phi tuyến. Ranh giới quyết định là một bề mặt ngăn cách các lớp; bộ phân loại sẽ dự đoán một lớp cho tất cả các điểm ở một bên của ranh giới quyết định và một lớp khác cho tất cả các điểm ở phía bên kia.

yhwb

y= =σ(hw+b)

σ1c

c= ={0y0,51y>0,5

hW+by

Tôi đã nói trước đó rằng ranh giới quyết định là phi tuyến, nhưng siêu phẳng là định nghĩa chính của ranh giới tuyến tính. Nhưng, chúng tôi đã xem xét ranh giới là một chức năng của các đơn vị ẩn ngay trước khi đầu ra. Các kích hoạt đơn vị ẩn là một hàm phi tuyến của các đầu vào ban đầu, do các lớp ẩn trước đó và các chức năng kích hoạt phi tuyến của chúng. Một cách để suy nghĩ về mạng là nó ánh xạ dữ liệu phi tuyến vào một số không gian tính năng. Các tọa độ trong không gian này được cung cấp bởi các kích hoạt của các đơn vị ẩn cuối cùng. Mạng sau đó thực hiện phân loại tuyến tính trong không gian này (hồi quy logistic, trong trường hợp này). Chúng ta cũng có thể nghĩ về ranh giới quyết định như là một chức năng của các đầu vào ban đầu. Hàm này sẽ là phi tuyến, là kết quả của ánh xạ phi tuyến từ đầu vào đến kích hoạt đơn vị ẩn.

Bài đăng trên blog này cho thấy một số số liệu và hình ảnh động đẹp của quá trình này.


1

Tính phi tuyến xuất phát từ hàm kích hoạt sigmoid, 1 / (1 + e ^ x), trong đó x là tổ hợp tuyến tính của các yếu tố dự đoán và trọng số mà bạn đã tham chiếu trong câu hỏi của mình.

Nhân tiện, giới hạn của kích hoạt này bằng 0 và một bởi vì mẫu số trở nên quá lớn đến mức phân số tiến đến 0 hoặc e ^ x trở nên quá nhỏ đến mức phân số đạt 1/1.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.