Có tài liệu nào kiểm tra sự lựa chọn kích thước xe buýt nhỏ khi thực hiện giảm độ dốc ngẫu nhiên không? Theo kinh nghiệm của tôi, nó dường như là một lựa chọn theo kinh nghiệm, thường được tìm thấy thông qua xác nhận chéo hoặc sử dụng các quy tắc khác nhau.
Có phải là một ý tưởng tốt để tăng từ từ kích thước xe buýt nhỏ khi lỗi xác nhận giảm? Điều này có ảnh hưởng gì đến lỗi tổng quát? Tôi có tốt hơn khi sử dụng một chiếc xe mini cực nhỏ và cập nhật mô hình của mình hàng trăm ngàn lần không? Tôi có thể tốt hơn với một số cân bằng ở đâu đó giữa cực kỳ nhỏ và hàng loạt không?
Tôi có nên chia tỷ lệ kích thước của xe buýt nhỏ của mình với kích thước của tập dữ liệu hoặc số lượng tính năng dự kiến trong tập dữ liệu không?
Tôi rõ ràng có rất nhiều câu hỏi về việc thực hiện các chương trình học tập nhỏ. Thật không may, hầu hết các bài báo tôi đọc không thực sự chỉ định cách họ chọn siêu tham số này. Tôi đã có một số thành công từ các tác giả như Yann LeCun, đặc biệt là từ bộ sưu tập giấy tờ Tricks of the Trade. Tuy nhiên, tôi vẫn chưa thấy những câu hỏi này được giải quyết đầy đủ. Có ai có bất kỳ đề xuất nào cho các bài báo, hoặc lời khuyên về những tiêu chí nào tôi có thể sử dụng để xác định kích thước xe buýt nhỏ tốt khi cố gắng tìm hiểu các tính năng không?