Phiên bản ba câu:
Mỗi lớp có thể áp dụng bất kỳ chức năng nào bạn muốn cho lớp trước đó (thường là một phép biến đổi tuyến tính theo sau là một phi tuyến squashing).
Công việc của các lớp ẩn là biến đổi các đầu vào thành một thứ mà lớp đầu ra có thể sử dụng.
Lớp đầu ra biến đổi các kích hoạt lớp ẩn thành bất kỳ tỷ lệ nào bạn muốn đầu ra của mình được bật.
Giống như bạn 5:
Nếu bạn muốn một máy tính cho bạn biết nếu có một chiếc xe buýt trong ảnh, máy tính có thể có thời gian dễ dàng hơn nếu nó có các công cụ phù hợp.
Vì vậy, máy dò xe buýt của bạn có thể được làm bằng máy dò bánh xe (để giúp bạn biết đó là xe) và máy dò hộp (vì xe buýt có hình dạng như một hộp lớn) và máy dò kích thước (để nói với bạn rằng nó quá lớn để là một chiếc xe hơi ). Đây là ba yếu tố của lớp ẩn của bạn: chúng không phải là một phần của hình ảnh thô, chúng là các công cụ bạn thiết kế để giúp bạn xác định các bus.
Nếu cả ba máy dò đó đều bật (hoặc có lẽ nếu chúng đặc biệt hoạt động), thì rất có thể bạn có xe buýt trước mặt.
Mạng lưới thần kinh rất hữu ích vì có các công cụ tốt (như backpropagation) để xây dựng nhiều máy dò và đặt chúng lại với nhau.
Giống như bạn là người lớn
Mạng thần kinh chuyển tiếp nguồn cấp dữ liệu áp dụng một loạt các chức năng cho dữ liệu. Các hàm chính xác sẽ phụ thuộc vào mạng nơ ron mà bạn đang sử dụng: thường xuyên nhất, các hàm này mỗi hàm tính toán một phép biến đổi tuyến tính của lớp trước đó, sau đó là một phi tuyến bị đè bẹp. Đôi khi các hàm sẽ làm một cái gì đó khác (như tính toán các hàm logic trong ví dụ của bạn hoặc lấy trung bình trên các pixel liền kề trong một hình ảnh). Vì vậy, vai trò của các lớp khác nhau có thể phụ thuộc vào chức năng nào đang được tính toán, nhưng tôi sẽ cố gắng rất chung chung.
Hãy gọi vectơ đầu vào , kích hoạt lớp ẩn và kích hoạt đầu ra . Bạn có một số hàm ánh xạ từ đến và một hàm khác ánh xạ từ đến . h y f x h g h yxhyfxhghy
Vì vậy, kích hoạt của lớp ẩn là và đầu ra của mạng là .g ( f ( x ) )f(x)g(f(x))
Tại sao có hai hàm ( và ) thay vì chỉ một?gfg
Nếu mức độ phức tạp trên mỗi hàm bị giới hạn, thì có thể tính toán những thứ mà và không thể làm riêng lẻ. f gg(f(x))fg
Một ví dụ với các hàm logic:
Ví dụ: nếu chúng ta chỉ cho phép và là các toán tử logic đơn giản như "VÀ", "HOẶC" và "NAND", thì bạn không thể tính các hàm khác như "XOR" chỉ với một trong số chúng. Mặt khác, chúng ta có thể tính toán "XOR" nếu chúng ta sẵn sàng xếp các hàm này lên nhau:gfg
Chức năng lớp đầu tiên:
- Đảm bảo rằng ít nhất một yếu tố là "TRUE" (sử dụng OR)
- Đảm bảo rằng chúng không phải là tất cả "TRUE" (sử dụng NAND)
Chức năng lớp thứ hai:
- Đảm bảo rằng cả hai tiêu chí của lớp đầu tiên đều được thỏa mãn (sử dụng AND)
Đầu ra của mạng chỉ là kết quả của chức năng thứ hai này. Lớp đầu tiên biến đổi các đầu vào thành một cái gì đó mà lớp thứ hai có thể sử dụng để toàn bộ mạng có thể thực hiện XOR.
Một ví dụ với hình ảnh:
Slide 61 từ bài nói chuyện này - cũng có sẵn ở đây dưới dạng một hình ảnh - hiển thị (một cách để hình dung) những gì các lớp ẩn khác nhau trong một mạng thần kinh cụ thể đang tìm kiếm.
Lớp đầu tiên tìm kiếm các cạnh ngắn trong hình ảnh: chúng rất dễ tìm thấy từ dữ liệu pixel thô, nhưng chúng không hữu ích lắm khi nói với bạn nếu bạn nhìn vào mặt hoặc xe buýt hoặc voi .
Lớp tiếp theo tổng hợp các cạnh: nếu các cạnh từ lớp ẩn phía dưới khớp với nhau theo một cách nhất định, thì một trong những máy dò mắt ở giữa cột ngoài cùng bên trái có thể bật. Thật khó để tạo ra một lớp duy nhất rất tốt trong việc tìm kiếm thứ gì đó quá cụ thể từ các pixel thô: máy dò mắt dễ dàng hơn nhiều để tạo ra các máy dò cạnh so với các pixel thô.
Lớp tiếp theo kết hợp các máy dò mắt và máy dò mũi vào mặt. Nói cách khác, những thứ này sẽ sáng lên khi máy dò mắt và máy dò mũi từ lớp trước bật lên với các mẫu phù hợp. Chúng rất tốt trong việc tìm kiếm các loại khuôn mặt cụ thể: nếu một hoặc nhiều trong số chúng sáng lên, thì lớp đầu ra của bạn sẽ báo cáo rằng có một khuôn mặt.
Điều này rất hữu ích vì máy dò tìm khuôn mặt rất dễ chế tạo từ máy dò mắt và máy dò mũi, nhưng thực sự khó để tạo ra cường độ điểm ảnh.
Vì vậy, mỗi lớp giúp bạn càng ngày càng xa các pixel thô và gần hơn với mục tiêu cuối cùng của bạn (ví dụ như phát hiện khuôn mặt hoặc phát hiện xe buýt).
Câu trả lời cho các loại câu hỏi khác
"Tại sao một số lớp trong lớp đầu vào được kết nối với lớp ẩn và một số thì không?"
Các nút bị ngắt kết nối trong mạng được gọi là các nút "bias". Có một lời giải thích thực sự tốt đẹp ở đây . Câu trả lời ngắn gọn là chúng giống như các thuật ngữ chặn trong hồi quy.
"Những hình ảnh" máy dò mắt "trong ví dụ hình ảnh đến từ đâu?"
Tôi đã không kiểm tra kỹ các hình ảnh cụ thể mà tôi đã liên kết, nhưng nói chung, những hình ảnh này cho thấy tập hợp các pixel trong lớp đầu vào giúp tối đa hóa hoạt động của nơron tương ứng. Vì vậy, nếu chúng ta nghĩ về tế bào thần kinh như một máy dò mắt, thì đây là hình ảnh mà tế bào thần kinh coi là giống mắt nhất. Mọi người thường tìm thấy các bộ pixel này với quy trình tối ưu hóa (leo đồi).
Trong bài báo này của một số người Google có một trong những mạng lưới thần kinh lớn nhất thế giới, họ cho thấy một tế bào thần kinh "máy dò tìm khuôn mặt" và tế bào thần kinh "máy dò mèo" theo cách này, cũng như cách thứ hai: Họ cũng hiển thị hình ảnh thực tế kích hoạt tế bào thần kinh mạnh nhất (hình 3, hình 16). Cách tiếp cận thứ hai rất hay vì nó cho thấy mạng linh hoạt và phi tuyến như thế nào - những "máy dò" cấp cao này nhạy cảm với tất cả các hình ảnh này, mặc dù chúng không đặc biệt trông giống nhau ở mức pixel.
Hãy cho tôi biết nếu có bất cứ điều gì ở đây không rõ ràng hoặc nếu bạn có thêm bất kỳ câu hỏi nào.