Nếu mỗi nơ-ron trong một mạng nơ-ron về cơ bản là một hàm hồi quy logistic, tại sao nhiều lớp lại tốt hơn?


13

Tôi sẽ tham gia khóa học DeepAI của Cousera (video Tuần 3 1 "Tổng quan về mạng lưới thần kinh") và Andrew Ng đang giải thích làm thế nào mỗi lớp trong mạng lưới thần kinh chỉ là một hồi quy logistic, nhưng anh ta không giải thích cách nó làm cho mọi thứ chính xác hơn.

Vậy trong mạng 2 lớp, làm thế nào để tính toán logistic nhiều lần làm cho nó chính xác hơn?


7
Thông thường để phù hợp với một mô hình hồi quy logistic duy nhất tốt, bạn cần phải thực hiện tính năng quan trọng. Hai lớp nn đang cố gắng thực hiện một số công việc đó cho bạn.
Matthew Drury

@msk, bạn đã bao giờ tạo các tính năng mới dựa trên các tính năng ban đầu của mình để cải thiện hồi quy logistic chưa? Đây là những gì lớp ẩn (s) làm.
Ricardo Cruz

Câu trả lời:


10

Khi sử dụng các hàm kích hoạt logistic, đúng là hàm liên quan đến đầu vào của mỗi đơn vị với đầu ra của nó giống như đối với hồi quy logistic. Nhưng, điều này thực sự không giống như mỗi đơn vị thực hiện hồi quy logistic. Sự khác biệt là, trong hồi quy logistic, các trọng số và độ lệch được chọn sao cho đầu ra phù hợp nhất với các giá trị đích đã cho (sử dụng tổn thất log / entropy chéo). Ngược lại, các đơn vị ẩn trong mạng lưới thần kinh gửi đầu ra của chúng đến các đơn vị hạ nguồn. Không có đầu ra mục tiêu để phù hợp cho các đơn vị ẩn riêng lẻ. Thay vào đó, các trọng số và độ lệch được chọn để giảm thiểu một số hàm mục tiêu phụ thuộc vào đầu ra cuối cùng của mạng.

Thay vì thực hiện hồi quy logistic, có thể có ý nghĩa hơn khi nghĩ về mỗi đơn vị ẩn khi tính toán tọa độ trong một số không gian tính năng. Từ quan điểm này, mục đích của một lớp ẩn là biến đổi đầu vào của nó - vectơ đầu vào được ánh xạ thành một vectơ kích hoạt lớp ẩn. Bạn có thể nghĩ về điều này như ánh xạ đầu vào vào một không gian đặc trưng với kích thước tương ứng với từng đơn vị ẩn.

Lớp đầu ra thường có thể được coi là một thuật toán học tập tiêu chuẩn hoạt động trong không gian tính năng này. Ví dụ, trong một nhiệm vụ phân loại, sử dụng đơn vị đầu ra logistic có mất entropy chéo tương đương với thực hiện hồi quy logistic trong không gian tính năng (hoặc hồi quy logistic đa phương nếu sử dụng đầu ra softmax). Trong tác vụ hồi quy, sử dụng đầu ra tuyến tính có lỗi bình phương tương đương với thực hiện hồi quy tuyến tính bình phương nhỏ nhất trong không gian tính năng.

Đào tạo số lượng mạng để học chức năng ánh xạ không gian tính năng và phân loại / hồi quy (trong không gian tính năng), cùng nhau, mang lại hiệu suất tốt nhất. Giả sử các đơn vị ẩn phi tuyến, tăng chiều rộng của lớp ẩn hoặc xếp chồng nhiều lớp ẩn cho phép ánh xạ không gian tính năng phức tạp hơn, do đó cho phép các chức năng phức tạp hơn phù hợp.


7

Một cách để thấy sức mạnh của phi tuyến là lưu ý định lý xấp xỉ phổ quát .

Mặc dù nó không thực sự quan trọng trong thực tế (về khả năng của các mạng một lớp), nhưng nó cho bạn biết rằng nếu bạn sử dụng các sigmoids (tùy ý dài), về nguyên tắc bạn có thể xấp xỉ bất kỳ chức năng liên tục nào với bất kỳ mức độ mong muốn nào. Nếu bạn biết lý thuyết Fourier hoặc nhớ định lý xấp xỉ Weierstrass thì không nên ngạc nhiên.


3
Đây là người duy nhất thực sự trả lời đúng câu hỏi, mặc dù hơi quá súc tích. Một lớp ẩn là đủ để tạo ra các tính năng mới mạnh mẽ kết hợp các tính năng ban đầu. Vấn đề là bạn có thể cần một lớp ẩn có quá nhiều nút và quá trình hội tụ hoạt động tốt nhất với mạng sâu hơn với các lớp ẩn> 1.
Ricardo Cruz

5

Khi có các lớp ẩn tồn tại trong mạng nơ ron, chúng ta sẽ thêm các tính năng phi tuyến tính. Vui lòng kiểm tra câu trả lời của tôi ở đây để có được một số ý nghĩa.

Điều gì làm cho các mạng thần kinh là một mô hình phân loại phi tuyến?

Cụ thể, một hàm sigmoid lồng nhau sẽ "mạnh mẽ" hơn một phép biến đổi tuyến tính của các tính năng gốc và một hàm sigmoid (hồi quy logistic.)


Dưới đây là một ví dụ bằng số để giải quyết các bình luận của OP.

X10×37W3×7X×W10×77


Tôi chỉ tự hỏi, vậy thì bất kỳ nút nào của lớp đầu tiên khác nhau ở đầu ra, Ie Node 1 được X1, X2, X3, Node 2 cũng nhận được X1, X2, X3, nếu chúng đều là hồi quy logistic, thì thế nào đầu ra của họ sẽ khác nhau?
mskw

giả sử bạn có 3 tính năng và 10 đơn vị ẩn, thì đầu ra của lớp ẩn có 10 "tính năng được thiết kế".
Haitao Du

Tại sao bạn gọi nó là "các tính năng kỹ thuật", cũng là các tính năng bạn đề cập đến X1, X2, X3?
mskw

Tôi sẽ chỉnh sửa câu trả lời của tôi để giải quyết ý kiến ​​của bạn.
Haitao Du

Nhờ sửa đổi, từ lời giải thích của bạn, tôi không chắc là bạn không trả lời câu hỏi của tôi hay tôi có lỗ hổng kiến ​​thức mà tôi cần phải thu hẹp trước. Cụ thể, từ câu trả lời của bạn, Trọng lượng có đề cập đến từng chức năng đầu ra của nút không? Nếu vậy, chúng khác với các nút khác trên cùng một lớp như thế nào?
mskw

3

Trong hồi quy logistic tiêu chuẩn, chúng ta có 1 đầu ra trong lớp cuối cùng. Tuy nhiên, với một mạng nơ ron lớp ẩn duy nhất, chúng ta có thể có nhiều giá trị trung gian mà mỗi giá trị có thể được coi là đầu ra của một mô hình hồi quy logistic khác nhau, nghĩa là chúng ta không chỉ thực hiện cùng một hồi quy logistic. Sau đó, không phải là một bước nhảy lớn để nghĩ rằng có thể sự kết hợp của những thứ này có khả năng biểu cảm lớn hơn mô hình hồi quy logistic tiêu chuẩn (và cũng đã được thể hiện trong thực tiễn và lý thuyết ).

Nyj=f(i=1Nwjixi+bj)fwjixibjlà một số sai lệch. Các trọng số được chọn bởi một thuật toán tối ưu hóa để tối ưu hóa mục tiêu của chúng tôi, ví dụ như giảm thiểu lỗi phân loại. Khởi tạo là rất quan trọng đối với các thuật toán giảm độ dốc thường được sử dụng để tối ưu hóa các trọng số. Xem https://intoli.com/blog/neural-network-initialization/ trong đó nếu tất cả các trọng số bắt đầu từ 0, mạng không thể học được.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.