MLE ước tính trọng lượng mạng thần kinh nhân tạo (ANN) chắc chắn là có thể ; Thật vậy, nó hoàn toàn điển hình. Đối với các vấn đề phân loại, một hàm mục tiêu tiêu chuẩn là entropy chéo, giống như khả năng log âm của mô hình nhị thức. Đối với các vấn đề hồi quy, lỗi bình phương dư được sử dụng, tương đương với hồi quy MLE của OLS.
Nhưng có một số vấn đề với giả định rằng các đặc tính tốt đẹp của MLE xuất phát từ thống kê cổ điển cũng giữ cho MLE của các mạng thần kinh.
Có một vấn đề chung với ước tính ANN: có nhiều giải pháp đối xứng cho cả ANN một lớp. Đảo ngược các dấu hiệu của các trọng số cho lớp ẩn và đảo ngược các dấu hiệu của các tham số kích hoạt lớp ẩn đều có khả năng như nhau. Ngoài ra, bạn có thể hoán vị bất kỳ nút ẩn nào và các hoán vị này cũng có khả năng tương tự. Đây là kết quả trong chừng mực vì bạn phải thừa nhận rằng bạn đang từ bỏ nhận dạng. Tuy nhiên, nếu nhận dạng không quan trọng, thì bạn có thể đơn giản chấp nhận rằng các giải pháp thay thế này chỉ là sự phản ánh và / hoặc hoán vị của nhau.
Điều này trái ngược với cách sử dụng cổ điển của MLE trong thống kê, chẳng hạn như hồi quy OLS: vấn đề OLS là lồi và lồi hoàn toàn khi ma trận thiết kế có thứ hạng đầy đủ. Độ lồi mạnh ngụ ý rằng có một bộ giảm thiểu duy nhất, duy nhất.
ANN sẽ có xu hướng phù hợp với dữ liệu khi sử dụng giải pháp không ràng buộc. Các trọng số sẽ có xu hướng chạy xa khỏi nguồn gốc đến các giá trị lớn bất thường không khái quát tốt hoặc dự đoán dữ liệu mới với nhiều độ chính xác. Áp dụng phân rã trọng lượng hoặc các phương pháp chính quy hóa khác có tác dụng thu hẹp ước tính trọng lượng về không. Điều này không nhất thiết giải quyết vấn đề không xác định từ (1), nhưng nó có thể cải thiện việc khái quát hóa mạng.
Hàm mất là nonconvex và tối ưu hóa có thể tìm thấy các giải pháp tối ưu cục bộ không tối ưu toàn cầu . Hoặc có lẽ các giải pháp này là điểm yên ngựa, trong đó một số phương pháp tối ưu hóa bị đình trệ. Các kết quả trong bài báo này thấy rằng các phương pháp ước tính hiện đại vượt qua vấn đề này.
L1L2