Điều gì gây ra một mô hình yêu cầu tỷ lệ học tập thấp?


8

Tôi đã suy nghĩ về điều này trong một thời gian mà không phát triển trực giác cho toán học đằng sau nguyên nhân của việc này.

Vậy điều gì khiến một mô hình cần tỷ lệ học tập thấp?


Tôi cũng tự hỏi về điều đó và tôi tò mò tại sao RNN có tỷ lệ học tập nhỏ hơn CNN. Từ những gì tôi biết, độ phức tạp của mô hình (độ sâu) và / hoặc bộ dữ liệu khổng lồ đòi hỏi một siêu tham số tốt hơn cho lr.
Justin

Câu trả lời:


4

Gradient Descent là một phương pháp để tìm tham số tối ưu của giả thuyết hoặc tối thiểu hóa hàm chi phí.

công thức trong đó alpha là tỷ lệ học tập

Nếu tỷ lệ học tập cao thì nó có thể vượt quá mức tối thiểu và có thể không giảm thiểu chức năng chi phí. nhập mô tả hình ảnh ở đây

do đó dẫn đến một mất mát cao hơn.

nhập mô tả hình ảnh ở đây

Vì Gradient gốc chỉ có thể tìm thấy tối thiểu cục bộ, do đó, tỷ lệ học tập thấp hơn có thể dẫn đến hiệu suất kém. Để làm như vậy, tốt hơn là bắt đầu với giá trị ngẫu nhiên của siêu tham số có thể tăng thời gian đào tạo mô hình nhưng có các phương pháp nâng cao như giảm độ dốc thích ứng có thể quản lý thời gian đào tạo.

Có rất nhiều trình tối ưu hóa cho cùng một tác vụ nhưng không có trình tối ưu hóa nào là hoàn hảo. Nó phụ thuộc vào một số yếu tố

  1. kích thước của dữ liệu đào tạo: khi kích thước của dữ liệu đào tạo tăng thời gian đào tạo cho mô hình tăng lên. Nếu bạn muốn đi với thời gian mô hình đào tạo ít hơn, bạn có thể chọn tỷ lệ học tập cao hơn nhưng có thể dẫn đến hiệu suất kém.
  2. Trình tối ưu hóa (giảm độ dốc) sẽ bị chậm lại bất cứ khi nào độ dốc nhỏ thì tốt hơn là nên đi với tốc độ học tập cao hơn.

Tái bút Luôn luôn tốt hơn để đi với các vòng khác nhau của độ dốc


4
Đây là một khởi đầu tốt, vì nó cho thấy sự khác biệt giữa tỷ lệ học tập thấp và cao nói chung. Bạn cũng cần giải thích lý do tại sao tỷ lệ học tập tốt thay đổi tùy theo nhiệm vụ - và OP đã hỏi cụ thể tại sao một số vấn đề yêu cầu tỷ lệ học tập thấp hơn những vấn đề khác
Neil Slater

1
Đó là một điểm hay. Tôi đã chỉnh sửa nó. Vì không có vấn đề cụ thể nào được đề cập nên tôi sẽ nói chung.
Posi2

1
Tôi vẫn nghĩ rằng điều này không trả lời câu hỏi. OP không hỏi về trình tối ưu hóa hay dữ liệu, mà là hỏi về mô hình. Làm thế nào để mô hình (kiến trúc của nó, số lượng tham số, vv) ảnh hưởng đến tốc độ học tập? Tôi nghĩ rằng đây là câu hỏi thực tế mà bạn không trả lời. Mọi thứ khác đều không liên quan đến câu hỏi và sẽ chỉ khiến độc giả nhầm lẫn rằng không thể phân biệt giữa các khái niệm này.
nbro

Cảm ơn vì bạn đã phản hồi. Không phân biệt kiến ​​trúc mô hình như số lượng tham số, kích thước dữ liệu và phạm vi của dữ liệu (giải pháp sử dụng dữ liệu chuẩn hóa) có kết quả cao trong thời gian đào tạo cao hơn vì vậy theo nó, chúng ta nên thay đổi tốc độ học tập. Điều này áp dụng cho mô hình như hồi quy tuyến tính, hồi quy logistic, SVM, v.v. vì họ sử dụng GD để tối ưu hóa. Mọi phản hồi luôn được chào đón :)
Posi2

Bất kỳ bằng chứng nào đánh giá yêu cầu của bạn "không phân biệt kiến ​​trúc mô hình"? Câu trả lời này vẫn không trả lời câu hỏi OP. Bạn đang trả lời cho câu hỏi "tốc độ học tập nói chung thay đổi như thế nào, tùy thuộc vào cài đặt máy học" (và câu trả lời của bạn không đầy đủ, tất nhiên, vì nó không đề cập đến "tốc độ học thay đổi như thế nào tùy thuộc vào mô hình ", Tức là câu hỏi thực tế).
nbro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.