1 lớp ẩn với 1000 nơ-ron so với 10 lớp ẩn với 100 nơ-ron


13

Những loại câu hỏi này có thể phụ thuộc vào vấn đề, nhưng tôi đã cố gắng tìm nghiên cứu giải quyết câu hỏi liệu số lượng lớp ẩn và kích thước của chúng (số lượng tế bào thần kinh trong mỗi lớp) có thực sự quan trọng hay không.

Vì vậy, câu hỏi của tôi là, nó có thực sự quan trọng không, ví dụ như chúng ta có 1 lớp ẩn lớn gồm 1000 nơ-ron so với 10 lớp ẩn với 100 nơ-ron mỗi lớp?

Câu trả lời:


12

Về cơ bản, việc có nhiều lớp (còn gọi là mạng sâu) làm cho mạng của bạn háo hức hơn để nhận ra các khía cạnh nhất định của dữ liệu đầu vào. Ví dụ: nếu bạn có các chi tiết của một ngôi nhà (kích thước, kích thước bãi cỏ, vị trí, v.v.) làm đầu vào và muốn dự đoán giá. Lớp đầu tiên có thể dự đoán:

  • Diện tích lớn, giá cao hơn
  • Số lượng phòng ngủ nhỏ, giá thấp hơn

Lớp thứ hai có thể kết luận:

  • Diện tích lớn + số lượng phòng ngủ nhỏ = phòng ngủ lớn = + - hiệu ứng

Đúng, một lớp cũng có thể 'phát hiện' các chỉ số, tuy nhiên, nó sẽ cần nhiều nơ-ron hơn vì nó không thể dựa vào các nơ-ron khác để thực hiện 'các phần' trong tổng số tính toán cần thiết để phát hiện chỉ số đó.

Kiểm tra câu trả lời này


Cảm ơn bạn rất nhiều cho câu trả lời của bạn. Chỉ cần làm rõ, khi bạn viết "nó làm cho mạng của bạn [...]", bạn có đang đề cập đến trường hợp khi tôi có nhiều lớp ẩn với mỗi nơ-ron ít hơn thay vì có nhiều nơ-ron trong ít lớp hơn?
Stephen Johnson

@StephenJohnson oops, tôi đã chỉnh sửa câu hỏi. Tôi đang đề cập đến mạng sâu (nhiều lớp).
Thomas W

Câu trả lời tốt đẹp, cảm ơn một lần nữa. Có lẽ tôi nên tiếp tục điều này trong một chủ đề khác, nhưng bạn có nghĩ rằng loại lý luận tương tự áp dụng cho các mạng thần kinh tái phát như GRU hoặc LSTM không?
Stephen Johnson

@StephenJohnson bạn có nghĩa là một mạng tái phát nhiều lớp so với các mạng tái phát nhiều lớp hay bạn có nghĩa là vì các kết nối thường xuyên của chúng?
Thomas W

Ý tôi là nói chung, vì chúng có các kết nối định kỳ cho phép chúng ánh xạ các bối cảnh qua khoảng cách xa hơn, các mạng như vậy có được lợi từ việc Deep theo cùng một cách mà một mạng tiếp liệu thông thường sẽ không? Có lẽ chúng không thể được so sánh như vậy vì các mạng lặp lại thường được sử dụng khi dữ liệu tuần tự, như âm thanh, được sử dụng.
Stephen Johnson

4

Có rất nhiều khía cạnh.

1. Đào tạo: Đào tạo lưới sâu là một công việc khó khăn do vấn đề độ dốc biến mất (nổ sau). Vì vậy, việc xây dựng một mạng lưới thần kinh 10x100 không được khuyến khích.

2. Hiệu suất mạng được đào tạo:

  • Mất thông tin: Việc sử dụng cổ điển của mạng lưới thần kinh là vấn đề phân loại . Điều đó có nghĩa là chúng tôi muốn nhận được một số thông tin được xác định rõ từ dữ liệu. (Ví dụ: Có khuôn mặt nào trong ảnh hay không.) Vì vậy, thông thường vấn đề phân loại có rất nhiều đầu vào và ít đầu ra, kích thước của các lớp ẩn sẽ giảm từ đầu vào đến đầu ra. Tuy nhiên, chúng tôi mất thông tin bằng cách sử dụng ít tế bào thần kinh hơn từng lớp. (Tức là chúng ta không thể tái tạo hình ảnh gốc dựa trên thực tế là có một khuôn mặt trên đó hay không.) Vì vậy, bạn phải biết rằng bạn mất thông tin khi sử dụng 100 nơ-ron nếu kích thước của đầu vào là (giả sử) 1000.
  • Độ phức tạp thông tin: Tuy nhiên, các mạng sâu hơn (như Tomas W đã đề cập) có thể lấy thông tin phức tạp hơn từ dữ liệu đầu vào. Không nên sử dụng 10 lớp được kết nối đầy đủ. Nên sử dụng tích chập / relu / maxpooling hoặc các loại lớp khác. Các lớp Firest có thể nén một số phần thiết yếu của đầu vào. (Ví dụ: có bất kỳ dòng nào trong một phần cụ thể của hình ảnh) Các lớp thứ hai có thể nói: Có một hình dạng cụ thể ở vị trí này trong hình ảnh. Vân vân.

Vì vậy, lưới sâu hơn là "thông minh" hơn nhưng cấu trúc lưới 10x100 là một lựa chọn tốt.


1

Nếu vấn đề bạn đang giải quyết có thể phân tách tuyến tính, một lớp 1000 nơ-ron có thể thực hiện công việc tốt hơn 10 lớp với mỗi 100 nơ-ron. Nếu vấn đề là phi tuyến tính và không lồi, thì bạn cần mạng lưới thần kinh sâu.


2
Nếu vấn đề có thể phân tách tuyến tính, bạn hoàn toàn không cần các lớp ẩn
Amedeo Baragiola 24/12/18

0

Tôi nghĩ rằng bạn có một sự nhầm lẫn trong những điều cơ bản của các mạng lưới thần kinh. Mỗi lớp có một chức năng kích hoạt riêng và trọng lượng kết nối đầu vào / đầu ra.

Đầu ra của lớp ẩn đầu tiên sẽ được nhân với trọng số, được xử lý bởi chức năng kích hoạt ở lớp tiếp theo, v.v. Mạng thần kinh một lớp rất hạn chế cho các nhiệm vụ đơn giản, NN sâu hơn có thể thực hiện tốt hơn nhiều so với một lớp.

Tuy nhiên, không sử dụng nhiều hơn lớp nếu ứng dụng của bạn không khá phức tạp. Tóm lại, lớp 100 nơ-ron không có nghĩa là mạng nơ-ron tốt hơn 10 lớp x 10 nơ-ron nhưng 10 lớp là một thứ gì đó tưởng tượng trừ khi bạn đang học sâu. bắt đầu với 10 nơ-ron trong lớp ẩn và cố gắng thêm các lớp hoặc thêm nhiều nơ-ron vào cùng một lớp để thấy sự khác biệt. học với nhiều lớp hơn sẽ dễ dàng hơn nhưng cần nhiều thời gian đào tạo hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.