NN thường xuyên Bayes so với NN cổ điển


8

Tôi đã thấy một vài bài báo nghiên cứu cho rằng các mạng nơ ron cổ điển thường thiếu khả năng khái quát hóa thỏa đáng, điều này thường dẫn đến một dự đoán không chính xác, và ANNs (BRANNs) được Bayesian mạnh hơn các mạng lan truyền ngược tiêu chuẩn và có thể làm giảm hoặc loại bỏ cần xác nhận chéo dài.

Tuy nhiên, các bài viết này không đưa ra lý do / biện minh chính đáng cho khiếu nại này.

Theo những cách nào , hoặc cho mục đích cụ thể nào thì BRANNs tốt hơn NN cổ điển? Và tại sao?

Câu trả lời:


8

Vấn đề chính với mạng lưới thần kinh có xu hướng ngăn chặn sự phù hợp quá mức. Chính quy hóa Bayes (hạn chế độ lớn của các trọng số) là một cách tiếp cận này, ổn định cấu trúc (nghĩa là hạn chế số lượng nút ẩn và / hoặc trọng số là một cách khác). Cả hai cách tiếp cận đều không phải là thuốc chữa bách bệnh, và nói chung, sự kết hợp giữa chính quy hóa và ổn định cấu trúc là tốt hơn (có nghĩa là bạn cần xác thực lại một lần nữa để chọn kiến ​​trúc mạng - sử dụng bằng chứng Bayes cho điều này là một ý tưởng tồi vì kết quả là sai lệch về việc sử dụng nó trong việc điều chỉnh các tham số chính quy và không đáng tin cậy nếu có bất kỳ đặc tả sai nào của mô hình). Cái nào hoạt động tốt nhất về cơ bản là phụ thuộc vào vấn đề và cách tốt nhất để tìm hiểu là thử cả hai và xem (sử dụng xác thực chéo để ước tính hiệu suất theo cách không thiên vị).

Ngoài ra, chính quy hóa không phải là Bayes, bạn có thể chọn mức độ thường xuyên hóa mạng bằng cách sử dụng xác thực chéo thay thế. Một trong những vấn đề với các phương thức Bayes là chúng có thể cho kết quả xấu nếu mô hình bị chỉ định sai, trong trường hợp đó các phương thức chính quy hóa dựa trên xác thực chéo có thể mạnh hơn.

Một điểm quan trọng khác là không phải tất cả các công thức mạng thần kinh Bayes đều giống nhau. Khung bằng chứng của MacKay có xu hướng không hoạt động tốt đối với các vấn đề phân loại vì phép tính gần đúng Laplace mà nó sử dụng không hoạt động tốt cho các phân phối sau bị lệch cho các trọng số. Cách tiếp cận MCMC của Radford Neal có khả năng hoạt động tốt hơn cho các nhiệm vụ này, nhưng tốn kém về mặt tính toán và đánh giá sự hội tụ, v.v. không đơn giản như vậy.

Tuy nhiên, các mô hình mạng nơ-ron khá khó để thực hiện đúng và trong thực tế sẽ dễ dàng có được hiệu suất khái quát hóa tốt từ các phương thức kernel hoặc các quy trình Gaussian, vì vậy tôi sẽ sử dụng chúng thay thế cho hầu hết các nhiệm vụ, đặc biệt là nếu có ít dữ liệu đào tạo.

Gần đây tôi đã thực hiện một nghiên cứu thực nghiệm sâu rộng về vấn đề này, nhưng tôi cần tìm một tạp chí chấp nhận các nghiên cứu thực nghiệm về sự quan tâm của các học viên, nhưng với rất ít nội dung nghiên cứu mới.


αβ

@YtsendeBoer Bằng chứng (khả năng cận biên) được đánh giá qua một tập hợp dữ liệu hữu hạn, vì vậy giá trị của nó phụ thuộc vào mẫu cụ thể và một thành phần chủ yếu chỉ là nhiễu. Nếu bạn điều chỉnh mô hình bằng cách tối ưu hóa bằng chứng, một phần của sự cải thiện rõ ràng sẽ là do điều chỉnh tiếng ồn trong khả năng cận biên, cũng như trong những thay đổi thực sự cải thiện hiệu suất. Do đó, sau khi tối ưu hóa, bằng chứng đưa ra một cái nhìn lạc quan về hiệu suất thực tế của mô hình và do đó không phải là một hướng dẫn tốt cho ví dụ tối ưu hóa cấu trúc sau đó.
Dikran Marsupial

αβ

alphabeta

4

Bạn sử dụng BRANN cho các mục đích tương tự như ANN thông thường, điển hình là phân loại và hồi quy. Như Dikran Marsupial nói, càng tốt vì chúng mạnh hơn chống lại quá mức và cho phép bạn làm việc với số lượng tế bào thần kinh cao hơn mà không cần chạy quá mức. Bên cạnh đó, nó cung cấp cho bạn các thanh lỗi trên các đầu ra, nghĩa là bạn có thước đo độ tin cậy của từng đầu ra.

Tuy nhiên, các kỹ thuật mới như bỏ học và tối đa dường như đã vượt qua kỹ thuật này, bởi vì chúng dễ sử dụng hơn và mang lại kết quả tốt hơn. Ở đây bỏ học được hiển thị để thực hiện mở rộng quy mô và chính quy theo ý nghĩa nhất định.

Tuy nhiên, nếu bạn quan tâm đến các chi tiết, bạn có thể kiểm tra các bài báo của David MacKay (anh chàng đã giành chiến thắng trong một số cuộc thi với kỹ thuật này).


Bạn thực sự không giải thích làm thế nào BRANNs giúp ngăn ngừa quá mức, v.v.
nbro 11/11/19
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.