Lợi thế chính của việc sử dụng xe buýt nhỏ trái ngược với bộ dữ liệu đầy đủ quay trở lại ý tưởng cơ bản về độ dốc dốc ngẫu nhiên 1 .
Trong việc giảm độ dốc hàng loạt, bạn tính toán độ dốc trên toàn bộ tập dữ liệu, tính trung bình trên tiềm năng một lượng thông tin khổng lồ. Phải mất rất nhiều bộ nhớ để làm điều đó. Nhưng điểm chấp thực sự là quỹ đạo độ dốc hàng loạt đưa bạn vào một điểm xấu (điểm yên ngựa).
Trong SGD tinh khiết, mặt khác, bạn nên cập nhật các thông số của bạn bằng cách thêm (dấu trừ) gradient tính trên một đơn thể hiện của các tập dữ liệu. Vì nó dựa trên một điểm dữ liệu ngẫu nhiên, nó rất ồn và có thể đi theo hướng khác xa với độ dốc hàng loạt. Tuy nhiên, độ ồn chính xác là những gì bạn muốn trong tối ưu hóa không lồi, bởi vì nó giúp bạn thoát khỏi các điểm yên ngựa hoặc cực tiểu địa phương (Định lý 6 trong [2]). Nhược điểm là nó không hiệu quả khủng khiếp và bạn cần lặp lại toàn bộ tập dữ liệu nhiều lần để tìm ra giải pháp tốt.
Phương pháp của xe buýt nhỏ là một sự thỏa hiệp giúp truyền đủ tiếng ồn cho mỗi lần cập nhật độ dốc, đồng thời đạt được sự hội tụ nhanh tương đối.
1 chai, L. (2010). Học máy quy mô lớn với độ dốc dốc ngẫu nhiên. Trong Kỷ yếu của COMPSTAT'2010 (trang 177-186). Physica-Verlag HD.
[2] Ge, R., Huang, F., Jin, C., & Yuan, Y. (2015, tháng 6). Thoát khỏi điểm yên ngựa - Độ dốc ngẫu nhiên trực tuyến để phân rã. Trong COLT (trang 797-842).
BIÊN TẬP :
Tôi vừa thấy bình luận này trên facebook của Yann LeCun, đưa ra một góc nhìn mới về câu hỏi này (xin lỗi không biết cách liên kết với fb.)
Tập luyện với xe buýt nhỏ có hại cho sức khỏe của bạn. Quan trọng hơn, nó không tốt cho lỗi kiểm tra của bạn. Bạn bè không cho phép bạn bè sử dụng xe buýt nhỏ hơn 32. Hãy đối mặt với điều đó: những người duy nhất đã chuyển sang kích thước xe buýt nhỏ hơn một lần kể từ năm 2012 là do GPU không hiệu quả đối với kích thước lô nhỏ hơn 32. Đó là một lý do khủng khiếp. Nó chỉ có nghĩa là phần cứng của chúng tôi hút.
Ông đã trích dẫn bài báo này vừa được đăng trên arXiv vài ngày trước (tháng 4 năm 2018), rất đáng để đọc,
Dominic Masters, Carlo Luschi, Xem xét lại chương trình đào tạo hàng loạt nhỏ cho mạng lưới thần kinh sâu , arXiv: 1804.07612v1
Từ trừu tượng,
Trong khi việc sử dụng các lô nhỏ lớn làm tăng tính song song tính toán có sẵn, thì việc đào tạo lô nhỏ đã được chứng minh là mang lại hiệu quả tổng quát hóa cao hơn ...
Hiệu suất tốt nhất đã đạt được một cách nhất quán cho các kích thước lô nhỏ giữa m = 2 và m = 32, tương phản với công việc gần đây ủng hộ việc sử dụng kích thước lô nhỏ trong hàng ngàn.