Chúng ta có thể sử dụng MLE để ước tính trọng lượng Mạng thần kinh không?


23

Tôi chỉ bắt đầu nghiên cứu về số liệu thống kê và mô hình. Hiện tại, sự hiểu biết của tôi là chúng tôi sử dụng MLE để ước tính (các) tham số tốt nhất cho một mô hình. Tuy nhiên, khi tôi cố gắng hiểu làm thế nào các mạng thần kinh hoạt động, có vẻ như họ thường sử dụng một cách tiếp cận khác để ước tính các tham số thay thế. Tại sao chúng ta không sử dụng MLE hoặc hoàn toàn có thể sử dụng MLE?

Câu trả lời:


16

MLE ước tính trọng lượng mạng thần kinh nhân tạo (ANN) chắc chắn là có thể ; Thật vậy, nó hoàn toàn điển hình. Đối với các vấn đề phân loại, một hàm mục tiêu tiêu chuẩn là entropy chéo, giống như khả năng log âm của mô hình nhị thức. Đối với các vấn đề hồi quy, lỗi bình phương dư được sử dụng, tương đương với hồi quy MLE của OLS.

Nhưng có một số vấn đề với giả định rằng các đặc tính tốt đẹp của MLE xuất phát từ thống kê cổ điển cũng giữ cho MLE của các mạng thần kinh.

  1. Có một vấn đề chung với ước tính ANN: có nhiều giải pháp đối xứng cho cả ANN một lớp. Đảo ngược các dấu hiệu của các trọng số cho lớp ẩn và đảo ngược các dấu hiệu của các tham số kích hoạt lớp ẩn đều có khả năng như nhau. Ngoài ra, bạn có thể hoán vị bất kỳ nút ẩn nào và các hoán vị này cũng có khả năng tương tự. Đây là kết quả trong chừng mực vì bạn phải thừa nhận rằng bạn đang từ bỏ nhận dạng. Tuy nhiên, nếu nhận dạng không quan trọng, thì bạn có thể đơn giản chấp nhận rằng các giải pháp thay thế này chỉ là sự phản ánh và / hoặc hoán vị của nhau.

    Điều này trái ngược với cách sử dụng cổ điển của MLE trong thống kê, chẳng hạn như hồi quy OLS: vấn đề OLS là lồi và lồi hoàn toàn khi ma trận thiết kế có thứ hạng đầy đủ. Độ lồi mạnh ngụ ý rằng có một bộ giảm thiểu duy nhất, duy nhất.

  2. ANN sẽ có xu hướng phù hợp với dữ liệu khi sử dụng giải pháp không ràng buộc. Các trọng số sẽ có xu hướng chạy xa khỏi nguồn gốc đến các giá trị lớn bất thường không khái quát tốt hoặc dự đoán dữ liệu mới với nhiều độ chính xác. Áp dụng phân rã trọng lượng hoặc các phương pháp chính quy hóa khác có tác dụng thu hẹp ước tính trọng lượng về không. Điều này không nhất thiết giải quyết vấn đề không xác định từ (1), nhưng nó có thể cải thiện việc khái quát hóa mạng.

  3. Hàm mất là nonconvex và tối ưu hóa có thể tìm thấy các giải pháp tối ưu cục bộ không tối ưu toàn cầu . Hoặc có lẽ các giải pháp này là điểm yên ngựa, trong đó một số phương pháp tối ưu hóa bị đình trệ. Các kết quả trong bài báo này thấy rằng các phương pháp ước tính hiện đại vượt qua vấn đề này.

  4. L1L2


2
Tôi cầu xin khác với những gì bạn nói. Các cực tiểu địa phương khác nhau phát sinh từ các đối xứng đều có cùng chất lượng, vì vậy bạn không phải lo lắng về điều đó. Điều bạn có thể muốn nói là ANN không có chức năng mất lồi, điều này làm cho việc tối ưu hóa được tham gia nhiều hơn và không đảm bảo tìm thấy tối ưu toàn cầu. Tuy nhiên, gần đây đã có một số bằng chứng cho thấy ANN thực sự không có nhiều vấn đề cực tiểu địa phương, mà là các vấn đề về điểm yên ngựa. Xem ví dụ arxiv.org/abs/1412,6544 .
bayerj

11

Trong các vấn đề phân loại, tối đa hóa khả năng là cách phổ biến nhất để đào tạo một mạng lưới thần kinh (cả mô hình được giám sát và không giám sát).

Trong thực tế, chúng tôi thường giảm thiểu khả năng log âm (MLE tương đương). Hạn chế duy nhất để sử dụng khả năng đăng nhập tiêu cực là có một lớp đầu ra có thể được hiểu là phân phối xác suất. Một lớp đầu ra softmax thường được sử dụng để làm như vậy. Lưu ý rằng trong cộng đồng mạng nơ-ron, khả năng đăng nhập âm đôi khi được gọi là entropy chéo. Tất nhiên các thuật ngữ chính quy có thể được thêm vào (và đôi khi có thể được hiểu là các phân phối trước trên các tham số, trong trường hợp đó chúng tôi đang tìm kiếm tối đa một posteriori ( MAP )).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.