Làm thế nào một tỷ lệ học tập nhỏ hơn có thể làm tổn thương hiệu suất của một gbm?


8

Tôi đã luôn theo dõi trí tuệ dân gian rằng việc giảm tốc độ học tập trong một gbm (mô hình cây tăng cường độ dốc) không làm giảm hiệu suất mẫu của mô hình. Hôm nay, tôi không chắc lắm.

Tôi đang điều chỉnh các mô hình (tối thiểu hóa tổng các lỗi bình phương) cho bộ dữ liệu nhà ở boston . Dưới đây là một chuỗi lỗi theo số lượng cây trên bộ dữ liệu thử nghiệm 20 phần trăm

Lỗi theo số lượng cây với tỷ lệ học tập khác nhau

Thật khó để nhìn thấy những gì đang diễn ra ở cuối, vì vậy đây là một phiên bản phóng to ở các thái cực

Phóng to trong phiên bản

Có vẻ như trong ví dụ này, tỷ lệ học tập là tốt nhất, với tỷ lệ học tập nhỏ hơn thực hiện kém hơn khi giữ dữ liệu.0,01

Điều này được giải thích tốt nhất như thế nào?

Đây có phải là một tạo tác của kích thước nhỏ của tập dữ liệu boston không? Tôi quen thuộc hơn nhiều với các tình huống mà tôi có hàng trăm nghìn hoặc hàng triệu điểm dữ liệu.

Tôi có nên bắt đầu điều chỉnh tốc độ học tập bằng tìm kiếm dạng lưới (hoặc một số thuật toán meta khác) không?

Câu trả lời:


4

Có, bạn đúng tỷ lệ học tập thấp hơn sẽ tìm thấy một tối ưu tốt hơn so với tỷ lệ học tập cao hơn. Nhưng bạn nên điều chỉnh siêu tham số bằng cách sử dụng tìm kiếm dạng lưới để tìm ra sự kết hợp tốt nhất của tỷ lệ học cùng với các tham số siêu khác.

Thuật toán GBM sử dụng nhiều tham số siêu cộng với tốc độ học tập (độ co rút), đó là:

  1. Số lượng cây
  2. Độ sâu tương tác
  3. Quan sát tối thiểu trong một nút
  4. Phần túi (phần quan sát được chọn ngẫu nhiên)

Tìm kiếm lưới cần kiểm tra tất cả những điều này để xác định bộ tham số tối ưu nhất.

Ví dụ: trên một số bộ dữ liệu tôi đã điều chỉnh bằng GBM, tôi đã quan sát thấy độ chính xác rất khác nhau khi mỗi tham số siêu thay đổi. Tôi chưa chạy GBM trên tập dữ liệu mẫu của bạn, nhưng tôi sẽ đề cập đến một bài tập điều chỉnh tương tự cho tập dữ liệu khác. Tham khảo biểu đồ này về một vấn đề phân loại với các lớp mất cân bằng cao.

Tác động của độ co rút khác nhau (tỷ lệ học tập) đối với số liệu Kappa

Mặc dù độ chính xác cao nhất cho tỷ lệ học tập thấp hơn, ví dụ như tối đa. độ sâu của cây là 16, số liệu Kappa là 0,425 ở mức học 0,2, tốt hơn 0,415 ở mức học là 0,35.

Nhưng khi bạn nhìn vào tỷ lệ học tập ở 0,25 so với 0,26, có một sự gia tăng mạnh nhưng nhỏ ở Kappa cho độ sâu cây tối đa là 14, 15 và 16; trong khi đó nó tiếp tục giảm cho độ sâu của cây 12 và 13.

Do đó, tôi sẽ đề nghị bạn nên thử tìm kiếm lưới.

Ngoài ra, như bạn đã đề cập, tình huống này cũng có thể đã trở nên trầm trọng hơn bởi kích thước mẫu nhỏ hơn của tập dữ liệu.


0

Sandeep S. Sandhu đã cung cấp một câu trả lời tuyệt vời. Đối với trường hợp của bạn, tôi nghĩ rằng mô hình của bạn chưa hội tụ cho các tỷ lệ học tập nhỏ đó. Theo kinh nghiệm của tôi, khi sử dụng tỷ lệ học tập nhỏ như 0,001 trên cây tăng cường độ dốc, bạn cần khoảng 100.000 giai đoạn tăng (hoặc cây) để đạt mức tối thiểu. Vì vậy, nếu bạn tăng số vòng tăng lên gấp mười lần, bạn sẽ có thể thấy tỷ lệ học tập nhỏ hơn thực hiện tốt hơn so với vòng lớn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.