Tôi đã đọc giấy bình thường hóa hàng loạt (BN) (1) và không hiểu nhu cầu sử dụng đường trung bình di động để theo dõi độ chính xác của mô hình và ngay cả khi tôi chấp nhận rằng đó là điều đúng đắn, tôi không hiểu những gì họ đang làm chính xác.
Theo hiểu biết của tôi (mà tôi đã sai), bài báo đề cập rằng nó sử dụng số liệu thống kê dân số thay vì số liệu thống kê nhỏ, một khi mô hình đã hoàn thành đào tạo. Sau một số cuộc thảo luận về các ước tính không thiên vị (điều đó có vẻ tiếp tuyến với tôi và không hiểu tại sao nó nói về điều đó), họ đi và nói:
Thay vào đó, sử dụng đường trung bình di động, chúng tôi theo dõi độ chính xác của mô hình khi nó đào tạo.
Đó là phần khó hiểu với tôi. Tại sao họ lại di chuyển trung bình để ước tính độ chính xác của mô hình và trên tập dữ liệu nào?
Thông thường những gì mọi người làm để ước tính tổng quát hóa mô hình của họ, họ chỉ theo dõi lỗi xác thực của mô hình của họ (và có khả năng sớm dừng việc giảm độ dốc để thường xuyên hóa). Tuy nhiên, có vẻ như bình thường hóa hàng loạt đang làm một cái gì đó hoàn toàn khác. Ai đó có thể làm rõ những gì và tại sao nó làm một cái gì đó khác nhau?
1 : Ioffe S. và Szegedy C. (2015),
"Bình thường hóa hàng loạt: Tăng tốc đào tạo mạng lưới sâu bằng cách giảm sự thay đổi đồng biến nội bộ",
Kỷ yếu của Hội nghị quốc tế về học máy lần thứ 32 , Lille, Pháp, 2015.
Tạp chí Nghiên cứu về máy học: Khối lượng W & CP 37