Mạng thần kinh sâu có thể xấp xỉ chức năng nhân mà không cần chuẩn hóa?


27

Giả sử chúng ta muốn thực hiện hồi quy cho đơn giản f = x * ybằng cách sử dụng mạng nơ ron sâu độc lập.

Tôi nhớ rằng có những reseraches nói rằng NN với một lớp ẩn có thể loại bỏ bất kỳ chức năng nào, nhưng tôi đã thử và không bình thường hóa NN không thể xấp xỉ ngay cả phép nhân đơn giản này. Chỉ có sự bình thường hóa dữ liệu đã giúp m = x*y => ln(m) = ln(x) + ln(y). Nhưng điều đó có vẻ như là một mánh gian lận. NN có thể làm điều này mà không cần chuẩn hóa log không? Unswer rõ ràng là (đối với tôi) - vâng, vì vậy câu hỏi đặt ra là loại / cấu hình / bố cục của NN như vậy là gì?

Câu trả lời:


13

Một gradient chức năng nhân lớn buộc mạng có thể gần như ngay lập tức rơi vào trạng thái kinh hoàng trong đó tất cả các nút ẩn của nó có độ dốc bằng không (vì các hạn chế và chi tiết triển khai mạng thần kinh). Chúng ta có thể sử dụng hai cách tiếp cận:

  1. Chia theo hằng số. Chúng tôi chỉ phân chia mọi thứ trước khi học và nhân lên sau.
  2. Sử dụng chuẩn hóa log. Nó làm cho phép nhân thành phép cộng:

    m= =xyln(m)= =ln(x)+ln(y)


5

Một câu hỏi tương tự xuất hiện trước đó hôm nay và tôi đã rất ngạc nhiên khi không thể tìm được câu trả lời nhanh. Câu hỏi của tôi là do NN chỉ có các hàm tổng, làm thế nào họ có thể mô hình hóa các hàm nhân.

Loại này đã trả lời nó, mặc dù nó là lời giải thích dài dòng. Tóm tắt của tôi sẽ là mô hình của NN bề mặt chức năng chứ không phải chính chức năng. Đó là điều hiển nhiên, khi nhìn lại


5

NN với chức năng kích hoạt relu có thể xấp xỉ phép nhân khi phạm vi đầu vào bị hạn chế. Nhớ lại rằngrelu(x) = max(x, 0) .

Nó là đủ nếu NN xấp xỉ một hàm vuông g(z) = z^2, bởi vìx*y = ((x-y)^2 - x^2 - y^2)/(-2) . Phía bên tay phải chỉ có các kết hợp tuyến tính và hình vuông.

NN có thể gần đúng z^2với một hàm tuyến tính piecewise. Ví dụ, trên phạm vi [0, 2]kết hợp xrelu(2(x-1))không phải là xấu. Hình dưới đây hình dung điều này. Không có ý tưởng nếu điều này là hữu ích ngoài lý thuyết :-) nhập mô tả hình ảnh ở đây


0

"Một lớp ẩn" không giới hạn số lượng tế bào thần kinh và các loại chức năng kích hoạt được sử dụng, nó vẫn có một không gian đại diện lớn. Một phương pháp đơn giản để xác nhận sự tồn tại của vấn đề này: Huấn luyện vấn đề hồi quy này với mạng nơ ron thực tế, ghi lại từng trọng số và độ lệch, sử dụng các tham số này vẽ đồ thị dự đoán, đối chiếu với đường cong hàm mục tiêu. Bài tiểu luận này có thể giúp đỡ.


0

Tôi không thể nhận xét do là người dùng mới hoạt động trên StackExchange. Nhưng tôi nghĩ rằng đây là một câu hỏi quan trọng bởi vì nó rất đơn giản để hiểu nhưng khó giải thích. Với sự tôn trọng, tôi không nghĩ câu trả lời được chấp nhận là đủ. Nếu bạn nghĩ về các hoạt động cốt lõi của NN chuyển tiếp thức ăn tiêu chuẩn, với việc kích hoạt biểu mẫu s(W*x+b)cho một số chức năng kích hoạt phi tuyến s, thì thực sự không rõ ràng làm thế nào để "nhân" từ điều này ngay cả trong một mạng tổng hợp (nhiều lớp). Thu nhỏ (viên đạn đầu tiên trong câu trả lời được chấp nhận) dường như không giải quyết được câu hỏi nào cả ... tỷ lệ bằng gì? Các đầu vào xycó lẽ khác nhau cho mỗi mẫu. Và ghi nhật ký là tốt miễn là bạn biếtđó là những gì bạn cần làm và quan tâm đến vấn đề dấu hiệu trong quá trình tiền xử lý (vì rõ ràng nhật ký không được xác định cho các đầu vào tiêu cực). Nhưng về cơ bản, điều này không gây chú ý với khái niệm rằng các mạng thần kinh chỉ có thể "học" (cảm giác giống như một trò gian lận như OP đã nói). Tôi không nghĩ câu hỏi nên được xem xét trả lời cho đến khi nó thực sự là bởi một người thông minh hơn tôi!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.