Tăng cường: tại sao tỷ lệ học tập được gọi là tham số chính quy?


19

Các tỷ lệ học tham số ( ) trong Gradient Đẩy mạnh co lại sự đóng góp của mỗi mô hình cơ sở mới -typically một tree- cạn mà được thêm vào trong chuỗi. Nó đã được chứng minh là làm tăng đáng kể độ chính xác của tập kiểm tra, điều này có thể hiểu được vì với các bước nhỏ hơn, mức tối thiểu của hàm mất có thể đạt được chính xác hơn. ν[0,1]

Tôi không hiểu tại sao tỷ lệ học tập được coi là một tham số chính quy ? Trích dẫn các yếu tố của học thống kê , phần 10.12.1, tr.364:

Kiểm soát số lượng cây không phải là chiến lược chính quy hóa duy nhất có thể. Như với hồi quy sườn và mạng nơ ron, kỹ thuật co rút cũng có thể được sử dụng. Giá trị nhỏ hơn của (co rút nhiều hơn) kết quả trong nguy cơ đào tạo lớn hơn cho cùng một số lần lặp . Do đó, cả và kiểm soát rủi ro dự đoán trên dữ liệu huấn luyện.νMνM

Chính quy hóa có nghĩa là "cách để tránh quá mức", vì vậy rõ ràng số lần lặp là rất quan trọng trong khía cạnh đó (một quá cao dẫn đến quá mức). Nhưng:MM

Giá trị nhỏ hơn của (co rút nhiều hơn) kết quả trong nguy cơ đào tạo lớn hơn cho cùng một số lần lặp .νM

chỉ có nghĩa là với tỷ lệ học tập thấp, cần phải lặp lại nhiều hơn để đạt được độ chính xác tương tự trên tập huấn luyện. Vì vậy, làm thế nào mà liên quan đến quá mức?

Câu trả lời:


23

Giả sử bạn đang cố gắng giảm thiểu hàm mục tiêu thông qua số lần lặp. Và giá trị hiện tại là . Trong tập dữ liệu đã cho, không có "lỗi không thể khắc phục" và bạn có thể giảm thiểu tổn thất xuống cho dữ liệu đào tạo của mình. Bây giờ bạn có hai cách để làm điều đó.100,00,0

  • Cách đầu tiên là "tỷ lệ học tập lớn" và vài lần lặp. Giả sử bạn có thể giảm tổn thất trong mỗi lần lặp, sau đó, trong10,010 lần lặp, bạn có thể giảm tổn thất xuống .0,0

  • Cách thứ hai sẽ là "tốc độ học tập chậm" nhưng lặp đi lặp lại nhiều hơn. Giả sử bạn có thể giảm tổn thất bằng trong mỗi lần lặp và bạn cần lần lặp để có 0,0 mất trên dữ liệu đào tạo của mình.1100

Bây giờ hãy nghĩ về điều này: hai cách tiếp cận có bằng nhau không? và nếu không cái nào tốt hơn trong bối cảnh tối ưu hóabối cảnh học máy ?

Trong tài liệu tối ưu hóa , hai cách tiếp cận là như nhau. Khi cả hai đều hội tụ để giải pháp tối ưu . Mặt khác, trong học máy , chúng không bằng nhau. Bởi vì trong hầu hết các trường hợp, chúng tôi không làm cho tổn thất trong đào tạo được đặt thành sẽ gây ra sự phù hợp quá mức.0

Chúng ta có thể nghĩ về cách tiếp cận đầu tiên là "tìm kiếm lưới mức độ thô" và cách tiếp cận thứ hai là "tìm kiếm lưới mức độ tốt". Cách tiếp cận thứ hai thường hoạt động tốt hơn, nhưng cần nhiều sức mạnh tính toán hơn cho nhiều lần lặp hơn.

Để ngăn chặn sự phù hợp quá mức, chúng ta có thể làm những việc khác nhau, cách đầu tiên là hạn chế số lần lặp, giả sử chúng ta đang sử dụng cách tiếp cận đầu tiên, chúng ta giới hạn số lần lặp là 5. Cuối cùng, tổn thất cho dữ liệu đào tạo là . (BTW, điều này sẽ rất lạ từ quan điểm tối ưu hóa , có nghĩa là chúng ta có thể cải thiện giải pháp trong tương lai / nó không được hội tụ, nhưng chúng tôi đã chọn không. Để tối ưu hóa, chúng tôi thường thêm các ràng buộc hoặc các điều khoản xử phạt vào chức năng khách quan, nhưng thường không giới hạn số lần lặp.)50

Mặt khác, chúng ta cũng có thể sử dụng cách tiếp cận thứ hai: nếu chúng ta đặt tỷ lệ học tập là nhỏ, giảm mất cho mỗi lần lặp, mặc dù chúng ta có số lần lặp lớn nói là lần lặp, chúng ta vẫn chưa giảm thiểu tổn thất xuống .0,15000,0

Đây là lý do tại sao tỷ lệ học tập nhỏ tương đương với "thường xuyên hơn".

Dưới đây là một ví dụ về việc sử dụng tỷ lệ học tập khác nhau trên dữ liệu thử nghiệm bằng cách sử dụng xgboost. Vui lòng kiểm tra theo dõi hai liên kết để xem những gì không etahoặc n_iterationscó nghĩa là gì.

Các thông số cho Tree Booster

Kiểm soát quá mức XGBoost

Đối với cùng số lần lặp, hãy nói . Một tỷ lệ học tập nhỏ là "không phù hợp" (hoặc mô hình có "độ lệch cao") và tỷ lệ học tập lớn là "quá phù hợp" (hoặc mô hình có "phương sai cao").50

Ví dụ về thay đổi ETA tỷ lệ học tập trong mô hình XGBoost

Tái bút bằng chứng của sự không phù hợp là cả tập huấn luyện và kiểm thử đều có lỗi lớn và đường cong lỗi cho đào tạo và kiểm tra gần nhau. Dấu hiệu của sự phù hợp quá mức là lỗi tập huấn luyện là rất thấp và tập kiểm tra rất cao, hai đường cong nằm cách xa nhau.


Bạn có nghĩa là với tỷ lệ học tập thấp, bạn được phép lặp lại nhiều hơn (tinh chỉnh tìm kiếm của bạn nhiều hơn) với tỷ lệ học tập cao, cho cùng một mất mát? Tôi nghĩ rằng tôi có được trực giác mà bạn đang cố gắng truyền đạt nhưng những giải thích chặt chẽ hơn và / hoặc một ví dụ minh họa sẽ không bị tổn thương.
Antoine

cảm ơn bạn. Bạn có thể cập nhật các liên kết của bạn? Họ không làm việc cho tôi
Antoine

Sử dụng tỷ lệ học tập lớn hơn luôn tốt hơn miễn là bạn không tăng lỗi đào tạo trong các lần lặp lại tiếp theo. Sự chính quy mà bạn đang đề cập đến (thiên vị so với phương sai) có liên quan đến lỗi đào tạo / xác nhận và không phải là tỷ lệ học tập. Cho dù bạn đang sử dụng tỷ lệ học tập lớn hay nhỏ, nếu bạn đạt đến 0,0 lỗi đào tạo thì bạn đang bị quá mức. Nếu bạn đang sử dụng tỷ lệ học tập lớn hơn, thì bạn cần phải dừng tối ưu hóa sớm hơn để ngăn chặn quá mức. Bạn có thể sử dụng một bộ xác thực để xem liệu lỗi xác thực của bạn có tăng tại thời điểm bạn dừng đào tạo hay không.
Tò mò

hoặc tôi có thể đang thiếu thứ gì đó :)
Tò mò

This is why small learning rate is sort of equal to "more regularizations". Theo bài báo này, tốc độ học tập càng lớn, càng đều đặn: Siêu hội tụ: Đào tạo rất nhanh các mạng thần kinh sử dụng tốc độ học tập lớn
Antoine

2

Với phương pháp của Newton, bạn cập nhật các tham số của mình bằng cách trừ đi độ dốc của tổn thất chia cho độ cong của tổn thất. Trong tối ưu hóa giảm dần độ dốc, bạn cập nhật các tham số của mình bằng cách trừ đi độ dốc của tổn thất nhân với tốc độ học tập. Nói cách khác, đối ứng của tỷ lệ học tập được sử dụng thay cho độ cong mất mát thực sự.

Hãy xác định tổn thất vấn đề là tổn thất xác định đâu là mô hình tốt so với mô hình xấu. Đó là sự mất mát thực sự. Hãy xác định tổn thất được tối ưu hóa là những gì thực sự được giảm thiểu theo quy tắc cập nhật của bạn.

Theo định nghĩa, một tham số chính quy là bất kỳ thuật ngữ nào trong tổn thất được tối ưu hóa, nhưng không phải là mất mát. Vì tỷ lệ học tập hoạt động như một thuật ngữ bậc hai bổ sung trong tổn thất được tối ưu hóa, nhưng không liên quan gì đến mất mát, nên đây là một tham số chính quy.

Các ví dụ khác về chính quy hóa biện minh cho quan điểm này là:

  • Giảm cân, giống như một điều khoản bổ sung trong tổn thất được tối ưu hóa để phạt các trọng số lớn,
  • các điều khoản xử phạt các mô hình phức tạp và
  • các điều khoản xử phạt tương quan giữa các tính năng.

- Tôi không hiểu In other words, the reciprocal of the learning rate is used in place of the real loss curvature. - Tôi không phải là chuyên gia về miền và đây là lần đầu tiên tôi thấy định nghĩa : a regularization parameter is any term that is in the optimized loss, but not the problem loss. Tôi cũng không hiểu lắm. Bạn có thể vui lòng cung cấp một tài liệu tham khảo có liên quan? Cảm ơn trước
Antoine

@Antoine Tôi không thể cung cấp một tài liệu tham khảo. Đó chỉ là kinh nghiệm của tôi mà tôi đã cố gắng biện minh bằng ba ví dụ khác. Đối với tốc độ học tập thay cho độ cong mất nghịch đảo, bạn có thể thấy rằng nếu bạn viết ra phương pháp của Newton và các quy tắc cập nhật độ dốc xuống cạnh nhau.
Neil G
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.