Trong chương trình đào tạo theo nhóm lớn để học sâu: Khoảng cách khái quát hóa và Sharp Minima có một vài tuyên bố xen kẽ:
Trong thực tế, người ta đã quan sát thấy rằng khi sử dụng một lô lớn hơn, chất lượng của mô hình sẽ bị suy giảm, được đo bằng khả năng khái quát hóa [...]
Các phương pháp lô lớn có xu hướng hội tụ đến các bộ giảm thiểu sắc nét của các chức năng đào tạo và kiểm tra, và như được biết đến, cực tiểu sắc nét dẫn đến việc khái quát hóa kém hơn. n. Ngược lại, các phương pháp lô nhỏ luôn hội tụ đến các bộ giảm thiểu phẳng và các thí nghiệm của chúng tôi ủng hộ quan điểm thường thấy rằng điều này là do nhiễu vốn có trong ước tính độ dốc.
Từ luận án thạc sĩ của tôi : Do đó, sự lựa chọn của ảnh hưởng kích thước lô nhỏ:
- Thời gian đào tạo cho đến khi hội tụ : Dường như có một điểm ngọt ngào. Nếu kích thước lô rất nhỏ (ví dụ 8), thời gian này sẽ tăng lên. Nếu kích thước lô lớn, nó cũng cao hơn mức tối thiểu.
- Thời gian đào tạo trên mỗi kỷ nguyên : Lớn hơn tính toán nhanh hơn (hiệu quả)
- Chất lượng mô hình kết quả : Càng thấp càng tốt do khái quát hóa tốt hơn (?)
Điều quan trọng cần lưu ý là các tương tác siêu tham số : Kích thước hàng loạt có thể tương tác với các siêu tham số khác, đáng chú ý nhất là tốc độ học tập. Trong một số thí nghiệm, sự tương tác này có thể khiến bạn khó tách biệt ảnh hưởng của kích thước lô một mình đến chất lượng mô hình. Một tương tác mạnh mẽ khác là dừng lại sớm để thường xuyên.
Xem thêm