Tôi đã chơi đùa với hồi quy logistic với các thuật toán tối ưu hóa hàng loạt khác nhau (gradient liên hợp, newton-raphson và các phương pháp quasinewton khác nhau). Một điều tôi nhận thấy là đôi khi, việc thêm nhiều dữ liệu vào một mô hình thực sự có thể khiến việc đào tạo mô hình mất ít thời gian hơn nhiều. Mỗi lần lặp yêu cầu nhìn vào nhiều điểm dữ liệu hơn, nhưng tổng số lần lặp được yêu cầu có thể giảm đáng kể khi thêm nhiều dữ liệu. Tất nhiên, điều này chỉ xảy ra trên một số bộ dữ liệu nhất định và tại một số điểm, việc thêm nhiều dữ liệu sẽ khiến việc tối ưu hóa bị chậm lại.
Đây có phải là một hiện tượng nghiên cứu tốt? Tôi có thể tìm thêm thông tin về lý do tại sao / khi điều này có thể xảy ra?