Chọn kích thước xe buýt nhỏ phù hợp cho độ dốc dốc ngẫu nhiên (SGD)


13

Có tài liệu nào kiểm tra sự lựa chọn kích thước xe buýt nhỏ khi thực hiện giảm độ dốc ngẫu nhiên không? Theo kinh nghiệm của tôi, nó dường như là một lựa chọn theo kinh nghiệm, thường được tìm thấy thông qua xác nhận chéo hoặc sử dụng các quy tắc khác nhau.

Có phải là một ý tưởng tốt để tăng từ từ kích thước xe buýt nhỏ khi lỗi xác nhận giảm? Điều này có ảnh hưởng gì đến lỗi tổng quát? Tôi có tốt hơn khi sử dụng một chiếc xe mini cực nhỏ và cập nhật mô hình của mình hàng trăm ngàn lần không? Tôi có thể tốt hơn với một số cân bằng ở đâu đó giữa cực kỳ nhỏ và hàng loạt không?
Tôi có nên chia tỷ lệ kích thước của xe buýt nhỏ của mình với kích thước của tập dữ liệu hoặc số lượng tính năng dự kiến ​​trong tập dữ liệu không?

Tôi rõ ràng có rất nhiều câu hỏi về việc thực hiện các chương trình học tập nhỏ. Thật không may, hầu hết các bài báo tôi đọc không thực sự chỉ định cách họ chọn siêu tham số này. Tôi đã có một số thành công từ các tác giả như Yann LeCun, đặc biệt là từ bộ sưu tập giấy tờ Tricks of the Trade. Tuy nhiên, tôi vẫn chưa thấy những câu hỏi này được giải quyết đầy đủ. Có ai có bất kỳ đề xuất nào cho các bài báo, hoặc lời khuyên về những tiêu chí nào tôi có thể sử dụng để xác định kích thước xe buýt nhỏ tốt khi cố gắng tìm hiểu các tính năng không?


Tôi dường như không nhận được nhiều lượt truy cập về chủ đề này. Có một trang web trao đổi ngăn xếp tốt hơn để được hỏi máy học hoặc câu hỏi học tập sâu như thế này không?
Jason_L_Bens

Câu trả lời:


6

Lý thuyết về tính hiệu quả của SGD đã được thực hiện trên các bản cập nhật ví dụ duy nhất (ví dụ kích thước xe buýt nhỏ 1), vì vậy sử dụng xe buýt nhỏ hơn về mặt lý thuyết là không cần thiết. Nó có hai ưu điểm thực tế:

Thứ nhất , nếu tính toán có thể được vector hóa, bạn có thể tính toán độ dốc cho một xe buýt nhỏ> 1 gần như nhanh chóng, dẫn đến tăng tốc độ đáng kể trong đào tạo.

Trong trường hợp này, kích thước xe buýt tối ưu là một chức năng của phần cứng và triển khai cụ thể mà bạn đang làm việc, vì vậy có lẽ bạn nên thử nghiệm để tìm ra điểm ngọt.

Hai , tính toán độ dốc trên kích thước xe buýt nhỏ> 1 sẽ dẫn đến độ dốc chính xác hơn và các bước tối ưu hơn. Nhưng lợi ích này sẽ đến và chững lại một cách nhanh chóng khi kích thước xe buýt nhỏ tăng hơn 1, vì vậy bạn có thể tập trung chủ yếu vào mục tiêu đầu tiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.