Hàm chi phí của mạng nơ ron là không lồi?


36

Hàm chi phí của mạng nơ ron là và nó được khẳng định là không lồi . Tôi không hiểu tại sao lại như vậy, vì tôi thấy nó khá giống với hàm chi phí của hồi quy logistic, phải không?J(W,b)

Nếu nó không lồi, thì đạo hàm bậc 2 , phải không?JW<0

CẬP NHẬT

Nhờ các câu trả lời dưới đây cũng như nhận xét của @ gung, tôi đã hiểu ý của bạn, nếu không có lớp ẩn nào cả, nó lồi lõm, giống như hồi quy logistic. Nhưng nếu có các lớp ẩn, bằng cách cho phép các nút trong các lớp ẩn cũng như các trọng số trong các kết nối tiếp theo, chúng ta có thể có nhiều giải pháp về các trọng số dẫn đến cùng một tổn thất.

Bây giờ nhiều câu hỏi hơn,

1) Có nhiều cực tiểu cục bộ và một số trong số chúng phải có cùng giá trị, vì chúng tương ứng với một số nút và trọng số hoán vị, phải không?

2) Nếu các nút và trọng lượng hoàn toàn không được hoán vị, thì nó lồi, phải không? Và cực tiểu sẽ là cực tiểu toàn cầu. Nếu vậy, câu trả lời cho 1) là, tất cả những cực tiểu cục bộ đó sẽ có cùng giá trị, đúng không?


Nó không lồi ở chỗ có thể có nhiều cực tiểu cục bộ.
gung - Phục hồi Monica

2
Phụ thuộc vào mạng lưới thần kinh. Các mạng thần kinh có chức năng kích hoạt tuyến tính và mất vuông sẽ mang lại tối ưu hóa lồi (nếu bộ nhớ của tôi phục vụ tôi đúng cho các mạng chức năng cơ sở xuyên tâm với phương sai cố định). Tuy nhiên, mạng nơ ron chủ yếu được sử dụng với các chức năng kích hoạt phi tuyến tính (ví dụ như sigmoid), do đó việc tối ưu hóa trở nên không lồi.
Cagdas Ozgenc

@gung, tôi có quan điểm của bạn, và bây giờ tôi có nhiều câu hỏi hơn, vui lòng xem cập nhật của tôi :-)

5
Tại thời điểm này (2 năm sau), có thể tốt hơn là đưa câu hỏi của bạn trở lại phiên bản trước, chấp nhận một trong những câu trả lời dưới đây và hỏi một câu hỏi tiếp theo mới liên quan đến câu hỏi này cho ngữ cảnh.
gung - Phục hồi Monica

1
@gung, vâng, bạn đúng, nhưng bây giờ tôi không chắc lắm về một số khía cạnh của câu trả lời tôi đã nêu lên trước đây. Chà, vì tôi đã để lại một số bình luận mới về các câu trả lời bên dưới, tôi sẽ đợi một lúc để xem có cần thiết phải hỏi một câu hỏi mới không.

Câu trả lời:


25

Hàm chi phí của một mạng nơ ron nói chung không lồi cũng không lõm. Điều này có nghĩa là ma trận của tất cả các đạo hàm riêng thứ hai (Hessian) không phải là semidefinite dương, cũng không phải là semidefinite âm. Vì đạo hàm thứ hai là một ma trận, nên có thể nó không phải cái này hay cái kia.

Để làm cho hàm này tương tự với các hàm một biến, người ta có thể nói rằng hàm chi phí không có hình dạng như đồ thị của cũng như đồ thị của . Một ví dụ khác về hàm không lồi, không lõm là trên . Một trong những khác biệt nổi bật nhất là chỉ có một cực trị, trong khi có vô số cực đại và cực tiểu.x2-x2tội(x)R±x2tội

Làm thế nào điều này liên quan đến mạng lưới thần kinh của chúng tôi? Hàm chi phí cũng có một số cực đại và cực tiểu cục bộ, như bạn có thể thấy trong hình này , ví dụ.J(W,b)

Việc có nhiều cực tiểu cũng có thể được diễn giải theo một cách tốt đẹp. Trong mỗi lớp, bạn sử dụng nhiều nút được gán các tham số khác nhau để làm cho hàm chi phí nhỏ. Ngoại trừ các giá trị của các tham số, các nút này đều giống nhau. Vì vậy, bạn có thể trao đổi các tham số của nút đầu tiên trong một lớp với các tham số của nút thứ hai trong cùng một lớp và tính toán sự thay đổi này trong các lớp tiếp theo. Bạn sẽ kết thúc với một tập hợp các tham số khác nhau, nhưng giá trị của hàm chi phí không thể được phân biệt bằng (về cơ bản bạn chỉ di chuyển một nút, đến một nơi khác, nhưng vẫn giữ nguyên tất cả các đầu vào / đầu ra).J


OK, tôi hiểu lời giải thích hoán vị bạn đã thực hiện, tôi nghĩ nó có ý nghĩa, nhưng bây giờ tôi tự hỏi đây có phải là giải thích xác thực tại sao mạng lưới thần kinh là không lồi?

1
Bạn có ý nghĩa gì với 'một người xác thực'?
Roland

Ý tôi là, đây là cách nó nên được giải thích, không chỉ là một sự tương tự.

4
@loganecolss Bạn đúng rằng đây không phải là lý do duy nhất tại sao các hàm chi phí không phải là lồi, nhưng là một trong những lý do rõ ràng nhất. Phụ thuộc vào mạng và tập huấn luyện, có thể có những lý do khác tại sao có nhiều cực tiểu. Nhưng điểm mấu chốt là: Sự hoán vị một mình tạo ra sự không lồi lõm, bất kể các hiệu ứng khác.
Roland

1
Xin lỗi, tôi không thể hiểu đoạn cuối. Nhưng tôi cũng hiểu sai tại sao tôi lại đề cập đến max (0, x) ở đây. Trong mọi trường hợp - tôi nghĩ rằng cách chính xác để chỉ ra rằng có thể có nhiều chế độ (nhiều mức tối thiểu cục bộ) đang chứng minh điều đó theo một cách nào đó. ps Nếu Hessian không xác định thì nó không nói gì - hàm quasiconvex có thể có Hessian không xác định nhưng nó vẫn không chính thống.
bruziuz

17

Nếu bạn hoán vị các nơ-ron trong lớp ẩn và thực hiện phép hoán vị tương tự trên các trọng số của các lớp liền kề thì sự mất mát không thay đổi. Do đó, nếu có một mức tối thiểu toàn cầu khác không là một hàm của các trọng số, thì nó không thể là duy nhất vì hoán vị của các trọng số cho một mức tối thiểu khác. Do đó hàm không lồi.


5

Hàm mục tiêu có lồi hay không phụ thuộc vào chi tiết của mạng. Trong trường hợp tồn tại nhiều cực tiểu cục bộ, bạn hỏi liệu chúng có tương đương nhau không. Nói chung, câu trả lời là không, nhưng cơ hội tìm thấy mức tối thiểu cục bộ với hiệu suất tổng quát hóa tốt dường như tăng theo kích thước mạng.

Bài viết này được quan tâm:

Choromanska và cộng sự. (2015). Các bề mặt mất mát của mạng nhiều lớp

http://arxiv.org/pdf/1412.0233v3.pdf

Từ phần giới thiệu:

  • Đối với các mạng kích thước lớn, hầu hết các cực tiểu cục bộ đều tương đương và mang lại hiệu suất tương tự trên một bộ thử nghiệm.

  • Xác suất tìm thấy mức tối thiểu cục bộ "xấu" (giá trị cao) là khác không đối với các mạng kích thước nhỏ và giảm nhanh chóng với kích thước mạng.

  • Đấu tranh để tìm mức tối thiểu toàn cầu trên tập huấn luyện (trái ngược với một trong nhiều người tốt ở địa phương) không hữu ích trong thực tế và có thể dẫn đến thừa.

Họ cũng trích dẫn một số bài viết mô tả điểm yên ngựa là vấn đề lớn hơn cực tiểu địa phương khi đào tạo mạng lưới lớn.


4

Một số câu trả lời cho cập nhật của bạn:

  1. Vâng, nói chung có nhiều cực tiểu địa phương. (Nếu chỉ có một, nó sẽ được gọi là mức tối thiểu toàn cầu.) Cực tiểu địa phương sẽ không nhất thiết phải có cùng giá trị. Nói chung, có thể không có cực tiểu địa phương chia sẻ cùng một giá trị.

  2. Không, nó không lồi trừ khi đó là mạng một lớp. Trong trường hợp nhiều lớp chung, các tham số của các lớp sau (trọng số và tham số kích hoạt) có thể là các hàm đệ quy cao của các tham số trong các lớp trước. Nói chung, phép nhân các biến quyết định được giới thiệu bởi một số cấu trúc đệ quy có xu hướng phá hủy độ lồi. Một ví dụ tuyệt vời khác về điều này là các mô hình MA (q) trong phân tích chuỗi thời gian.

yXy-Xβ


1
"Mạng một lớp" sẽ chỉ là "hồi quy mềm" hay hồi quy logistic trông như thế nào, phải không?

Bằng cách "hoán vị các nút và trọng lượng", ý tôi là "hoán đổi" và đó là những gì tôi nhận được từ 2 câu trả lời cũ ở trên, và khi tôi hiểu câu trả lời của họ, bằng cách "tráo đổi" các nút và trọng số trong các lớp ẩn , cuối cùng chúng ta có thể có về cùng một lý thuyết, và đó là lý do tại sao chúng ta có thể có nhiều cực tiểu. Ý bạn là giải thích này không đúng?

Bạn có ý tưởng đúng, nhưng nó không hoàn toàn giống nhau. Đối với các mạng, tổn thất có thể không nhất thiết là mất nhị thức, các chức năng kích hoạt có thể không nhất thiết là sigmoids, v.v.
Mustafa S Eisa

Vâng, tôi không nghĩ nó đúng. Mặc dù sự thật là bạn sẽ có được hiệu suất tương tự cho dù bạn có chấp nhận các điều khoản này hay không, nhưng điều này không xác định độ lồi hoặc không lồi của bất kỳ vấn đề nào. Vấn đề tối ưu hóa là lồi nếu, đối với hàm mất cố định (không phải bất kỳ hoán vị nào của các điều khoản trong tổn thất), hàm mục tiêu được lồi trong các tham số mô hình và vùng khả thi mà bạn tối ưu hóa là lồi và đóng.
Mustafa S Eisa

Tôi hiểu, vì vậy nếu nó là "một lớp", nó có thể không phải là "softmax".

2

Bạn sẽ có một mức tối thiểu toàn cầu nếu vấn đề là lồi hoặc quasiconvex.

Giới thiệu về "khối xây dựng" lồi trong khi xây dựng mạng lưới thần kinh (phiên bản Khoa học Máy tính)

Tôi nghĩ rằng có một vài trong số chúng có thể được đề cập:

  1. max (0, x) - lồi và tăng

  2. log-sum-exp - lồi và tăng trong mỗi tham số

  3. y = Ax là affine và do đó lồi trong (A), có thể tăng có thể giảm. y = Ax là affine và do đó lồi trong (x), có thể tăng có thể giảm.

Thật không may, nó không lồi trong (A, x) vì nó trông giống như dạng bậc hai không xác định.

  1. Phép toán tích phân rời rạc thông thường (theo "thông thường" Ý tôi là được xác định bằng tín hiệu lặp lại) Y = h * X Trông rằng đó là hàm affine của h hoặc của biến X. Vì vậy, nó là một lồi trong biến h hoặc trong biến X. Về cả hai biến - Tôi không nghĩ như vậy bởi vì khi h và X là tích chập vô hướng sẽ giảm xuống dạng bậc hai không xác định.

  2. max (f, g) - nếu f và g là lồi thì max (f, g) cũng lồi.

Nếu bạn thay thế một hàm thành một hàm khác và tạo các tác phẩm thì vẫn ở trong phòng lồi cho y = h (g (x), q (x)), nhưng h nên lồi và nên tăng (không giảm) trong mỗi đối số. ...

Tại sao netwoks thần kinh trong không lồi:

  1. Tôi nghĩ rằng tích chập Y = h * X không phải là tăng dần trong h. Vì vậy, nếu bạn không sử dụng bất kỳ giả định bổ sung nào về kernel, bạn sẽ thoát khỏi tối ưu hóa lồi ngay sau khi bạn áp dụng tích chập. Vì vậy, không có tất cả tốt với thành phần .

  2. Ngoài ra tích chập và nhân ma trận không lồi nếu xem xét các tham số cặp đôi như đã đề cập ở trên. Vì vậy, có một vấn đề với phép nhân ma trận: đó là hoạt động không lồi trong các tham số (A, x)

  3. y = Axe có thể là quasiconvex trong (A, x) nhưng cũng cần tính đến các giả định bổ sung.

Xin vui lòng cho tôi biết nếu bạn không đồng ý hoặc có bất kỳ xem xét thêm. Câu hỏi cũng rất thú vị đối với tôi.

ps max-pooling - đó là sự hạ thấp với việc chọn max trông giống như một số sửa đổi của các hoạt động tối đa theo nguyên tố với tiền tố affine (để kéo các khối cần) và nó có vẻ lồi đối với tôi.

Về những câu hỏi khác

  1. Không, hồi quy logistic không phải là lồi hoặc lõm, nhưng nó là log-lõm. Điều này có nghĩa là sau khi áp dụng logarit, bạn sẽ có hàm lõm trong các biến giải thích. Vì vậy, ở đây tối đa thủ thuật đăng nhập là tuyệt vời.

  2. Nếu không chỉ có một mức tối thiểu toàn cầu. Không có gì có thể nói về mối quan hệ giữa các mức tối thiểu địa phương. Hoặc ít nhất bạn không thể sử dụng tối ưu hóa lồi và đó là phần mở rộng cho nó, bởi vì lĩnh vực toán học này dựa sâu vào đánh giá thấp toàn cầu.

Có thể bạn có nhầm lẫn về điều này. Bởi vì những người thực sự tạo ra các lược đồ như vậy chỉ cần làm "một cái gì đó" và họ nhận được "một cái gì đó". Thật không may bởi vì chúng tôi không có cơ chế hoàn hảo để giải quyết vấn đề tối ưu hóa không lồi (nói chung).

Nhưng thậm chí còn có những điều đơn giản hơn bên cạnh Mạng thần kinh - không thể giải quyết như bình phương tối thiểu phi tuyến tính - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.