Tại sao mọi người không sử dụng RBF hoặc RBF sâu hơn kết hợp với MLP?


12

Vì vậy, khi nhìn vào Mạng thần kinh chức năng cơ sở bán kính, tôi nhận thấy rằng mọi người chỉ khuyến nghị sử dụng 1 lớp ẩn, trong khi với mạng nơ ron perceptron đa lớp, nhiều lớp được coi là tốt hơn.

Vì các mạng RBF có thể được huấn luyện với phiên bản lan truyền ngược, có lý do nào khiến các mạng RBF sâu hơn không hoạt động được không, hoặc một lớp RBF không thể được sử dụng làm lớp áp chót hoặc lớp đầu tiên trong mạng MLP sâu? (Tôi đã suy nghĩ lớp áp chót để về cơ bản nó có thể được đào tạo về các tính năng được học bởi các lớp MLP trước đó)


Tôi không phải là chuyên gia về NN, nhưng ấn tượng của tôi là với NN chuyển tiếp thức ăn tiêu chuẩn, nhiều lớp ẩn thường không thêm nhiều.
gung - Phục hồi Monica

1
Đó là vào thời kỳ đầu của nghiên cứu NN, tuy nhiên bây giờ nhiều lớp hơn thường là công thức cho hiệu suất cao hơn (học sâu). Tôi nghĩ rằng cách tiếp cận yêu thích hiện tại là khởi tạo thông minh, càng nhiều lớp càng tốt, thường xuyên hóa thông qua bỏ học và softmax thay vì kích hoạt sigmoidal để tránh bão hòa. (Nhưng tôi có thể sai về các kỹ thuật). Tôi nghĩ rằng một số người cũng sử dụng lặp đi lặp lại sâu để có kết quả tốt hơn. Ngoài ra, Google đã đạt được trạng thái nghệ thuật trên imageNet vào năm 2014 với mạng 100 lớp.
dùng1646196

Câu trả lời:


4

Vấn đề cơ bản là RBF là a) quá phi tuyến, b) không làm giảm kích thước.

bởi vì a) RBF luôn được huấn luyện bằng phương tiện k thay vì giảm độ dốc.

Tôi sẽ khẳng định rằng thành công chính của Deep NNs là mạng lưới, trong đó một trong những phần quan trọng là giảm kích thước: mặc dù hoạt động với đầu vào 128x128x3 = 50.000, mỗi nơ-ron có trường tiếp nhận hạn chế và có ít nơ-ron hơn trong mỗi lớp .Trong một lớp nhất định trong MLP- mỗi nơ ron đại diện cho một tính năng / kích thước) để bạn liên tục giảm kích thước (khi đi từ lớp này sang lớp khác).

Mặc dù người ta có thể làm cho ma trận hiệp phương sai RBF thích nghi và việc giảm kích thước cũng vậy, điều này khiến cho việc huấn luyện trở nên khó khăn hơn.


Gần đây tôi đã đọc một bài báo đề xuất một thuật toán lan truyền ngược để đào tạo các mạng RBF. Cho rằng điều này có thể là một lợi ích trong việc có RBF là lớp cuối cùng trong một mạng lưới sâu? Tôi cho rằng ở dạng này, phần còn lại của mạng sâu về cơ bản sẽ phát hiện các tính năng mà RBF có thể phân loại
user1646196

có lẽ bạn nên liên kết đến bài báo và sau đó mọi người có thể đưa ra câu trả lời sáng suốt hơn. Tôi không thấy bất kỳ lợi ích nào ... vì RBF quá phi tuyến tính (và ví dụ: sigmoids đã được thay thế bởi relu vì chúng quá dốc biến mất tuyến tính ...). Những gì mọi người làm là đào tạo với lưới đối lưu với mlp tiêu chuẩn trên đầu, sau đó vứt bỏ mlp và sử dụng
svm

Bài viết là "Đào tạo mạng RBF với truyền bá chọn lọc" không chắc bạn có thể đọc nó ở đây hay nếu có một paywall scTHERirect.com/science/article/pii/S0925231203005411 . Tôi không biết sigmoids đã được thay thế bởi relu vì tính phi tuyến tính, nhưng cho rằng tôi có thể thấy sự phi tuyến tính tăng lên sẽ bị tránh xa như thế nào. Tôi sẽ đánh dấu câu trả lời là được chấp nhận :)
user1646196
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.