Mất tập luyện tăng theo thời gian [trùng lặp]

Tôi đang đào tạo một mô hình (Mạng thần kinh tái phát) để phân loại 4 loại trình tự. Khi tôi thực hiện khóa đào tạo của mình, tôi thấy sự mất mát đào tạo sẽ giảm dần cho đến khi tôi phân loại chính xác hơn 90% các mẫu trong các đợt đào tạo của mình. Tuy nhiên, một vài kỷ nguyên sau đó tôi nhận thấy rằng sự mất tập luyện tăng lên và độ chính xác của tôi giảm xuống. Điều này có vẻ kỳ lạ đối với tôi vì tôi mong đợi rằng trên tập huấn, hiệu suất sẽ được cải thiện theo thời gian không bị suy giảm. Tôi đang sử dụng mất entropy chéo và tỷ lệ học tập của tôi là 0,0002.

Cập nhật: Hóa ra tỷ lệ học tập quá cao. Với tỷ lệ học tập đủ thấp, tôi không quan sát hành vi này. Tuy nhiên tôi vẫn thấy điều này đặc biệt. Bất kỳ lời giải thích tốt đều được hoan nghênh về lý do tại sao điều này xảy ra

— tháng năm 2018
nguồn

Câu trả lời:

Tôi đã có một hành vi tương tự như vậy khi đào tạo một CNN, đó là vì tôi đã sử dụng độ dốc giảm dần với tốc độ học tập phân rã để tính toán lỗi. Bạn đã tăng đáng kể số lần lặp và kiểm tra xem hành vi này có xuất hiện muộn hơn với tỷ lệ học tập thấp mới không?

— Người tự do
nguồn

Trên thực tế có tuy nhiên có một điểm cho rằng tỷ lệ học tập đủ thấp, nơi nó sẽ không bao giờ đi lên nữa. Tôi đang tìm kiếm một lời giải thích hợp lý về lý do tại sao điều này xảy ra

— dins2018

Bạn sử dụng thuật toán tối ưu hóa nào?

— Freundlicher

Tôi sử dụng trình tối ưu hóa Adam với lr = 0,00001, betas = (0,5, 0,999)

— dins2018

Tôi nghĩ rằng bạn gần đúng với tỷ lệ học tập nhỏ này rất chậm đến mức tối thiểu cục bộ đến mức điểm giá trị tổn thất tăng nhẹ trở lại (vì bạn vượt quá mức tối thiểu) đòi hỏi quá nhiều lần lặp. Sự gia tăng giá trị tổn thất này là do Adam, thời điểm tối thiểu cục bộ bị vượt quá và một số lần lặp nhất định, một số nhỏ được chia cho một số thậm chí nhỏ hơn và giá trị tổn thất bùng nổ.

— Freundlicher

Bạn có thể đặt beta1 = 0.9 và beta2 = 0.999. Đó là những giá trị chung phải chống lại hành vi này.

— Freundlicher

Bởi vì tốc độ học tập quá lớn, nó sẽ phân kỳ và không tìm thấy mức tối thiểu của hàm mất mát. Sử dụng công cụ lên lịch để giảm tốc độ học tập sau một số kỷ nguyên nhất định sẽ giúp giải quyết vấn đề

— Yawen Trịnh
nguồn

Với tốc độ học tập cao hơn, bạn đang di chuyển quá nhiều theo hướng ngược lại với độ dốc và có thể di chuyển ra khỏi cực tiểu địa phương có thể làm tăng tổn thất. Lập kế hoạch tỷ lệ học tập và cắt gradient có thể giúp đỡ.

— namuchan95
nguồn

Chào mừng đến với CV. Để có được upvote, tốt nhất là cung cấp câu trả lời đầy đủ hơn, xem số liệu thống kê.stackexchange.com / help / how-to -answer để được hướng dẫn.

— ReneBt