Có bất kỳ quy tắc để chọn kích thước của một lô nhỏ?


21

Khi đào tạo mạng lưới thần kinh, một siêu tham số là kích thước của một chiếc xe buýt nhỏ. Các lựa chọn phổ biến là 32, 64 và 128 yếu tố trên mỗi lô nhỏ.

Có bất kỳ quy tắc / hướng dẫn nào một lô nhỏ nên lớn như thế nào không? Bất kỳ ấn phẩm nào điều tra ảnh hưởng đến đào tạo?


Khác với phù hợp trong bộ nhớ?
Ehsan M. Kermani

Vâng. Ví dụ, có bất kỳ ấn phẩm nào nói rằng "kích thước lô càng lớn thì càng tốt" (miễn là nó phù hợp với bộ nhớ)?
Martin Thoma

@ EhsanM.Kermani Tôi nghĩ nó có vấn đề. Tôi đã thực hiện một vài lần chạy trên CIFAR-100 và tôi nhận được các kết quả khác nhau tùy thuộc vào kích thước lô (với việc dừng sớm để quá mức hy vọng không phải là vấn đề)
Martin Thoma

3
Lớn hơn tính toán nhanh hơn (hiệu quả), nhỏ hơn hội tụ nhanh hơn, khái quát hóa tốt hơn; xem Đào tạo hàng loạt hiệu quả để tối ưu hóa ngẫu nhiênnghiên cứu RNN này . Có một điểm ngọt ngào mà bạn thấy theo kinh nghiệm cho vấn đề của mình.
Emre

2
Bài viết sâu sắc nhất này của Blei et al vừa xuất hiện: Stochastic Gradient Descent as xấp xỉ Bayesian Inference
Emre

Câu trả lời:


22

Trong chương trình đào tạo theo nhóm lớn để học sâu: Khoảng cách khái quát hóa và Sharp Minima có một vài tuyên bố xen kẽ:

Trong thực tế, người ta đã quan sát thấy rằng khi sử dụng một lô lớn hơn, chất lượng của mô hình sẽ bị suy giảm, được đo bằng khả năng khái quát hóa [...]

Các phương pháp lô lớn có xu hướng hội tụ đến các bộ giảm thiểu sắc nét của các chức năng đào tạo và kiểm tra, và như được biết đến, cực tiểu sắc nét dẫn đến việc khái quát hóa kém hơn. n. Ngược lại, các phương pháp lô nhỏ luôn hội tụ đến các bộ giảm thiểu phẳng và các thí nghiệm của chúng tôi ủng hộ quan điểm thường thấy rằng điều này là do nhiễu vốn có trong ước tính độ dốc.

Từ luận án thạc sĩ của tôi : Do đó, sự lựa chọn của ảnh hưởng kích thước lô nhỏ:

  • Thời gian đào tạo cho đến khi hội tụ : Dường như có một điểm ngọt ngào. Nếu kích thước lô rất nhỏ (ví dụ 8), thời gian này sẽ tăng lên. Nếu kích thước lô lớn, nó cũng cao hơn mức tối thiểu.
  • Thời gian đào tạo trên mỗi kỷ nguyên : Lớn hơn tính toán nhanh hơn (hiệu quả)
  • Chất lượng mô hình kết quả : Càng thấp càng tốt do khái quát hóa tốt hơn (?)

Điều quan trọng cần lưu ý là các tương tác siêu tham số : Kích thước hàng loạt có thể tương tác với các siêu tham số khác, đáng chú ý nhất là tốc độ học tập. Trong một số thí nghiệm, sự tương tác này có thể khiến bạn khó tách biệt ảnh hưởng của kích thước lô một mình đến chất lượng mô hình. Một tương tác mạnh mẽ khác là dừng lại sớm để thường xuyên.

Xem thêm


@NeilSlater Bạn có muốn thêm nhận xét của mình vào câu trả lời của tôi (bây giờ là cộng đồng wiki) không?
Martin Thoma

Tôi thích câu trả lời chung chung. Hơn nữa, tôi sẽ đánh giá cao khi có một số về những gì rất nhỏ , khổng lồhàng loạt nhỏ trong một ví dụ cụ thể.
Vì vậy,

@SoS mini-batch chỉ là một thuật ngữ. "Mini" không đề cập đến một kích thước cụ thể, nhưng nó chỉ có nghĩa là có nhiều hơn 1 ví dụ và ít hơn tổng số tập huấn luyện. Tôi coi "rất nhỏ" là <= 8 (Tôi vừa chỉnh sửa câu trả lời). Tôi cũng đo được mức tăng cực kỳ (hơn 5x) trong thời gian đào tạo đồng hồ treo tường cho việc này. Bình thường là một cái gì đó như 64 hoặc 128. Tôi không chắc chắn "khổng lồ" là gì; Tôi nghĩ rằng điều này có thể phụ thuộc vào phần cứng.
Martin Thoma

Câu trả lời này đặt nhiều câu hỏi hơn câu trả lời. Đâu là điểm ngọt ngào này (có thể là một biểu đồ sẽ giúp)? Làm thế nào để nó tương tác với tỷ lệ học tập và dừng lại sớm?
xjcl

Câu trả lời phụ thuộc vào mạng và tập dữ liệu. Do đó, không có ý nghĩa gì khi đưa ra những con số cụ thể và do đó một biểu đồ sẽ không giúp ích gì. Về tương tác với các siêu âm khác: Tôi không biết chắc chắn. Hãy thử và công bố kết quả của bạn :-)
Martin Thoma
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.