Chính quy: tại sao nhân với 1 / 2m?


9

Trong tuần 3 ghi chú bài giảng của lớp Coursera Machine Learning của Andrew Ng , một thuật ngữ được thêm vào hàm chi phí để thực hiện chính quy:

J+(θ)=J(θ)+λ2mj=1nθj2

Các ghi chú bài giảng nói:

Chúng tôi cũng có thể thường xuyên hóa tất cả các tham số theta của mình trong một tổng kết duy nhất:

minθ 12m [i=1m(hθ(x(i))y(i))2+λ j=1nθj2]

12m sau đó được áp dụng cho thuật ngữ chính quy hóa của các mạng thần kinh :

Hãy nhớ rằng hàm chi phí cho hồi quy logistic thường xuyên là:

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

Đối với các mạng thần kinh, sẽ phức tạp hơn một chút:

J(Θ)=1mi=1mk=1K[yk(i)log((hΘ(x(i)))k)+(1yk(i))log(1(hΘ(x(i)))k)]+λ2ml=1L1i=1slj=1sl+1(Θj,i(l))2
  • Tại sao một nửa liên tục được sử dụng ở đây? Vì vậy, nó bị hủy trong đạo hàm ?J
  • Tại sao phân chia bởi ví dụ đào tạo? Làm thế nào để số lượng các ví dụ đào tạo ảnh hưởng đến mọi thứ?m

bạn có chắc rằng 1 / m là trên chính quy và không phải trên câu trả lời của J (theta) AFAIK @DikranMarsupial đang đưa ra giả định đó ...... hay chính J (theta) có thuật ngữ 1 / m?
seanv507

Giả định đó là không chính xác - được áp dụng cho cả hàm chi phí không chính quy và thuật ngữ chính quy. Tôi đã cập nhật câu hỏi để đưa ra các công thức đầy đủ. 12m
Tom Hale

Câu trả lời:


5

Giả sử bạn có 10 ví dụ và bạn không chia chi phí chính quy hóa L2 cho số lượng ví dụ m . Sau đó, "sự thống trị" của chi phí chính quy hóa L2 so với chi phí entropy chéo sẽ giống như 10: 1, bởi vì mỗi ví dụ đào tạo có thể đóng góp vào tổng chi phí tương ứng là 1 / m = 1/10.

Nếu bạn có nhiều ví dụ, giả sử, 100, sau đó là "sự thống trị" của chi phí quy tắc L2 sẽ được cái gì như 100: 1, vì vậy bạn cần phải giảm một λ cho phù hợp, đó là bất tiện. Nó tốt hơn để có λ liên tục bất kể kích thước hàng loạt.

Cập nhật: Để làm cho lập luận này mạnh mẽ hơn, tôi đã tạo một sổ ghi chép jupyter .


1
Hmm, nhưng không phải là mục đích của yếu tố 1 / m trước hàm chi phí mà mỗi ví dụ đào tạo đóng góp bằng nhau cho chi phí? Vì vậy, vì chúng tôi đã tính trung bình các chi phí riêng lẻ, nên đây không phải là nguyên nhân của sự thống trị của thuật ngữ L2. Tuy nhiên, tôi thấy từ mô phỏng tuyệt vời của bạn rằng yếu tố 1 / m cũng trước thuật ngữ L2 có ích. Tôi chỉ không có trực giác đằng sau nó (chưa).
Milania

Tại sao nó bất tiện ?? thật đơn giản để chia chi phí L2 cho số lượng mẫu. Tôi nghĩ có lẽ bạn đã nói sai cách. Tôi nghĩ rằng bạn muốn nói rằng thật bất tiện khi chia tỷ lệ chi phí L2 theo cách thủ công mỗi lần, tốt hơn là chia cho số lượng mẫu như một phần của công thức để tự động chia tỷ lệ.
SpaceMonkey

6

Hàm mất mát trên tập huấn luyện nói chung là tổng của các mẫu bao gồm tập huấn luyện, do đó, tập huấn luyện trở nên lớn hơn, thuật ngữ đầu tiên quy mô tuyến tính với . Chúng ta có thể thu hẹp phạm vi để tìm kiếm giá trị tốt của một chút công bằng nếu trước tiên chúng ta chia thuật ngữ chính quy cho để bù lại sự phụ thuộc của vào . Tất nhiên cả 2 thực sự nằm trong mẫu số để đơn giản hóa các đạo hàm cần thiết cho thuật toán opimisation được sử dụng để xác định tối ưu .m λ m J ( θ ) m θJ(θ)mλmJ(θ)mθ


Cảm ơn đã giải thích quy mô chi phí không thường xuyên với . Tôi vẫn không hiểu cách chia cho sẽ giúp một giá trị duy nhất hoạt động tốt hơn với các giá trị khác nhau của . Chi phí không chính quy đã phụ thuộc rất nhiều vào , vậy tại sao phải quan tâm đến thuật ngữ chính quy phụ thuộc vào tham số, chứ không phải ví dụ? Có phải bởi vì với nhiều ví dụ đào tạo, phương sai sẽ giảm với cùng số lượng tham số? m λ m m n mmmλmmnm
Tom Hale

Hàm mất mát trong câu hỏi là trung bình trên tất cả các ví dụ (nghĩa là nó được chia cho m), không phải là một tổng, vì vậy tôi không thực sự thấy câu trả lời này hoạt động như thế nào.
Denziloe

@Denziloe nó cũng được áp dụng cho thuật ngữ chính quy.
Dikran Marsupial

2

Tôi đã tự hỏi về điều tương tự chính xác khi tham gia khóa học này, và cuối cùng tôi đã nghiên cứu nó một chút. Tôi sẽ đưa ra một câu trả lời ngắn ở đây, nhưng bạn có thể đọc một cái nhìn tổng quan chi tiết hơn trong một bài đăng trên blog tôi đã viết về nó .

Tôi tin rằng ít nhất một phần lý do cho các hệ số tỷ lệ đó là việc chính quy hóa L² có lẽ đã đi vào lĩnh vực học tập sâu thông qua việc giới thiệu khái niệm phân rã trọng lượng có liên quan, nhưng không giống nhau.

Sau đó, hệ số 0,5 để có được hệ số chỉ duy nhất cho sự phân rã trọng lượng trong độ dốc và tỷ lệ theo m ... tốt, có ít nhất 5 động lực khác nhau mà tôi đã tìm thấy hoặc đưa ra:

  1. Một tác dụng phụ của việc giảm độ dốc theo lô: Khi một lần lặp duy nhất của độ dốc thay thế được chính thức hóa trên toàn bộ tập huấn luyện, dẫn đến thuật toán đôi khi được gọi là giảm độ dốc theo lô, hệ số tỷ lệ 1 / m, được giới thiệu để làm cho hàm chi phí có thể so sánh được trên các tập dữ liệu kích thước khác nhau, được tự động áp dụng cho thời hạn phân rã trọng lượng.
  2. Giải quyết trọng lượng của một ví dụ duy nhất: Xem trực giác thú vị của grez.
  3. Tính đại diện của tập huấn luyện: Sẽ rất hợp lý khi giảm quy mô chính quy khi quy mô của tập huấn tăng lên, theo thống kê, tính đại diện của phân phối tổng thể cũng tăng theo. Về cơ bản, chúng ta càng có nhiều dữ liệu, thì càng cần ít sự chính quy hóa.
  4. Làm cho λ có thể so sánh: Bằng cách hy vọng giảm thiểu sự cần thiết phải thay đổi λ khi m thay đổi, tỷ lệ này làm cho chính nó có thể so sánh giữa các bộ dữ liệu kích thước khác nhau. Điều này làm cho một công cụ ước tính đại diện hơn về mức độ chính quy hóa thực tế được yêu cầu bởi một mô hình cụ thể về một vấn đề học tập cụ thể.
  5. Giá trị thực nghiệm: Máy tính xách tay tuyệt vời bằng cách grezchứng minh rằng điều này cải thiện hiệu suất trong thực tế.

0

Tôi cũng đã nhầm lẫn về điều này, nhưng sau đó trong một bài giảng về deeplearning.ai Andrew cho thấy đây chỉ là một hằng số tỷ lệ:

http://www.youtube.com/watch?v=6g0t3Phly2M&t=2m50s

Có lẽ có một lý do sâu sắc hơn để sử dụng 1 / 2m nhưng tôi nghi ngờ nó chỉ đơn giản là một siêu tham số.


Điều này không trả lời câu hỏi.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.