Tôi đã thấy kết luận tương tự từ nhiều cuộc thảo luận, khi kích thước xe buýt nhỏ càng lớn, sự hội tụ của SGD thực sự trở nên khó khăn / tệ hơn, ví dụ như bài báo này và câu trả lời này . Ngoài ra, tôi đã nghe nói về những người sử dụng các thủ thuật như tỷ lệ học tập nhỏ hoặc kích cỡ lô trong giai đoạn đầu để giải quyết khó khăn này với kích thước lô lớn.
Tuy nhiên, dường như phản tác dụng khi tổn thất trung bình của xe buýt nhỏ có thể được coi là gần đúng với tổn thất dự kiến đối với phân phối dữ liệu,
kích thước lô càng lớn thì càng chính xác. Tại sao trong thực tế không phải là trường hợp?
Dưới đây là một số suy nghĩ (có thể sai) của tôi cố gắng giải thích.
Các tham số của mô hình phụ thuộc rất nhiều vào nhau, khi lô quá lớn sẽ ảnh hưởng đến quá nhiều tham số cùng một lúc, sao cho các tham số khó đạt được phụ thuộc vốn có ổn định? (giống như vấn đề dịch chuyển đồng biến nội bộ được đề cập trong bài viết chuẩn hóa hàng loạt )
Hoặc khi gần như tất cả các tham số chịu trách nhiệm trong mỗi lần lặp, chúng sẽ có xu hướng tìm hiểu các mẫu ẩn dự phòng do đó làm giảm khả năng của mô hình? (Ý tôi là nói về các vấn đề phân loại chữ số, một số mẫu phải chịu trách nhiệm cho các chấm, một số cho các cạnh, nhưng khi điều này xảy ra, mọi mẫu đều cố gắng chịu trách nhiệm cho tất cả các hình dạng).
Hoặc là bởi vì khi kích thước lô gần với quy mô của tập huấn luyện, các xe buýt nhỏ không còn có thể được xem là iid từ phân phối dữ liệu, vì sẽ có xác suất lớn cho các xe buýt nhỏ tương quan?
Cập nhật
Như đã chỉ ra trong câu trả lời của Benoit Sanchez, một lý do quan trọng là các xe buýt nhỏ đòi hỏi nhiều tính toán hơn để hoàn thành một bản cập nhật và hầu hết các phân tích đều sử dụng số lượng kỷ nguyên đào tạo để so sánh.
Tuy nhiên , bài báo này (Wilson và Martinez, 2003) cho thấy một cỡ lô lớn hơn vẫn hơi bất lợi thậm chí được cung cấp đủ số lượng kỷ nguyên đào tạo. Đó có phải là trường hợp nói chung?