Là lỗi bình phương luôn luôn lồi trong bối cảnh của các mạng thần kinh?


9

Nhiều tài nguyên tôi đã đề cập đến đề cập rằng MSE là tuyệt vời vì nó lồi. Nhưng tôi không hiểu làm thế nào, đặc biệt là trong bối cảnh của các mạng lưới thần kinh.

Hãy nói rằng chúng ta có những điều sau đây:

  • X : tập dữ liệu đào tạo
  • Y : mục tiêu
  • Θ : tập các tham số của mô hìnhfΘ (một mô hình mạng thần kinh với những người không linearities)

Sau đó:

MSE(Θ)=(fΘ(X)Y)2

Tại sao hàm mất này luôn luôn lồi? Điều này có phụ thuộc vào fΘ(X) không?

Câu trả lời:


1

Trả lời ngắn gọn: MSE tự lồi vào đầu vào và tham số của nó. Nhưng trên một mạng nơ ron tùy ý, nó không phải lúc nào cũng lồi do sự hiện diện của phi tuyến tính dưới dạng các hàm kích hoạt. Nguồn cho câu trả lời của tôi là ở đây .


1

Lồi lõm

f(x)xΧx1Χx2Χ0λ1

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

Có thể chứng minh rằng lồi như vậy có một mức tối thiểu toàn cầu. Một mức tối thiểu toàn cầu duy nhất giúp loại bỏ các bẫy được tạo bởi cực tiểu cục bộ có thể xảy ra trong các thuật toán cố gắng đạt được sự hội tụ ở mức tối thiểu toàn cầu, chẳng hạn như giảm thiểu hàm lỗi.f(x)

Mặc dù hàm lỗi có thể đáng tin cậy 100% trong tất cả các bối cảnh liên tục, tuyến tính và nhiều bối cảnh phi tuyến tính, điều đó không có nghĩa là sự hội tụ ở mức tối thiểu toàn cầu cho tất cả các bối cảnh phi tuyến tính có thể.

Lỗi bình phương trung bình

Cho một hàm mô tả hành vi hệ thống lý tưởng và mô hình của hệ thống (trong đó là vectơ tham số, ma trận, khối lập phương hoặc hypercube và ), được tạo ra một cách hợp lý hoặc thông qua hội tụ (như trong đào tạo mạng lưới thần kinh), hàm lỗi bình phương trung bình (MSE) có thể được biểu diễn như sau.s(x)a(x,p)p1nN

e(β):=N1n[a(xn)s(xn)]2

Tài liệu bạn đang đọc có thể không cho rằng hoặc là lồi đối với , nhưng là lồi đối với và bất kể họ là ai Tuyên bố sau này có thể được chứng minh cho bất kỳ và . a(x,p)s(x)xe(β)a(x,p)s(x)a(x,p)s(x)

Làm nhiễu thuật toán hội tụ

Nếu câu hỏi là liệu a và phương pháp đạt được gần bằng trong phạm vi hội tụ MSE hợp lý có thể bị nhầm lẫn hay không, câu trả lời là "Có". Đó là lý do tại sao MSE không phải là mô hình lỗi duy nhất.a(x,p)s(x)a(x,p)

Tóm lược

Cách tóm tắt tốt nhất là nên được xác định hoặc chọn từ một tập hợp các mô hình lỗi lồi chứng khoán dựa trên kiến ​​thức sau.e(β)

  • Các thuộc tính đã biết của hệ thốngs(x)
  • Định nghĩa của mô hình gần đúnga(x,p)
  • Tenor được sử dụng để tạo trạng thái tiếp theo trong chuỗi hội tụ

Tập hợp các mô hình lỗi lồi chứng khoán chắc chắn bao gồm mô hình MSE vì tính đơn giản và tiết kiệm tính toán của nó.


Vì vậy, câu trả lời ngắn gọn là MSE wrt Theta luôn luôn lồi. Mặc dù Feedforard (X, Theta) có thể không lồi?
user74211

Chà, @ user74211, bình luận đó không thực sự trả lời câu hỏi. Câu hỏi được hỏi cụ thể như thế nào có nghĩa là lỗi bình phương luôn có thể lồi nếu hàm mà nó không áp dụng. Nhận xét của bạn là một tập hợp con của các câu trong câu hỏi, mà không cần giải thích.
FauChristian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.