Tôi đã luôn theo dõi trí tuệ dân gian rằng việc giảm tốc độ học tập trong một gbm (mô hình cây tăng cường độ dốc) không làm giảm hiệu suất mẫu của mô hình. Hôm nay, tôi không chắc lắm.
Tôi đang điều chỉnh các mô hình (tối thiểu hóa tổng các lỗi bình phương) cho bộ dữ liệu nhà ở boston . Dưới đây là một chuỗi lỗi theo số lượng cây trên bộ dữ liệu thử nghiệm 20 phần trăm
Thật khó để nhìn thấy những gì đang diễn ra ở cuối, vì vậy đây là một phiên bản phóng to ở các thái cực
Có vẻ như trong ví dụ này, tỷ lệ học tập là tốt nhất, với tỷ lệ học tập nhỏ hơn thực hiện kém hơn khi giữ dữ liệu.
Điều này được giải thích tốt nhất như thế nào?
Đây có phải là một tạo tác của kích thước nhỏ của tập dữ liệu boston không? Tôi quen thuộc hơn nhiều với các tình huống mà tôi có hàng trăm nghìn hoặc hàng triệu điểm dữ liệu.
Tôi có nên bắt đầu điều chỉnh tốc độ học tập bằng tìm kiếm dạng lưới (hoặc một số thuật toán meta khác) không?