Làm thế nào để chọn số lượng cây trong mô hình hồi quy tăng cường tổng quát?


11

Có chiến lược nào để chọn số lượng cây trong GBM không? Cụ thể, ntreeslập luận trong R's gbmchức năng.

Tôi không thấy lý do tại sao bạn không nên đặt ntreesgiá trị hợp lý cao nhất. Tôi đã nhận thấy rằng số lượng cây lớn hơn rõ ràng làm giảm sự thay đổi kết quả từ nhiều GBM. Tôi không nghĩ rằng một số lượng lớn cây sẽ dẫn đến thừa.

Có suy nghĩ gì không?

Câu trả lời:


3

Đây là GBM:

" Tôi không nghĩ rằng ... " là phần đầu tiên nguy hiểm của nhiều câu.

Đủ tốt là vô nghĩa nếu không có thước đo về lòng tốt, một phiếu tự đánh giá.

Các biện pháp tốt cho bất kỳ phương pháp khác là gì?

  • Sự khác biệt giữa mô hình và dữ liệu (sse, ...)
  • Phân kỳ lỗi trong tập hợp giữ (lỗi huấn luyện so với lỗi kiểm tra)
  • Số lượng tham số so với tỷ lệ đếm mẫu (hầu hết mọi người như 5 mẫu trên mỗi tham số hoặc 30 mẫu trên mỗi tham số)
  • Xác nhận chéo (phương pháp tập hợp về phân kỳ kiểm tra lỗi)

Giống như một mạng thần kinh, hoặc spline, bạn có thể thực hiện phép nội suy tuyến tính từng phần trên dữ liệu và có được một mô hình không thể khái quát hóa. Bạn cần từ bỏ một số "lỗi thấp" để đổi lấy khả năng áp dụng chung - khái quát hóa.

Thêm liên kết:


2

Tôi đã tìm thấy một số cái nhìn sâu sắc về vấn đề: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

Các gbm.stepchức năng có thể được sử dụng để xác định số lượng tối ưu của cây. Tôi vẫn không chắc chắn điều gì khiến độ lệch mô hình tăng lên sau một số cây nhất định, vì vậy tôi vẫn sẵn sàng chấp nhận câu trả lời trả lời phần này của câu hỏi!


2
Quá mức gây ra sự gia tăng. Hầu hết các phương pháp tốt tạo ra một tập hợp giữ và sử dụng nó để kiểm tra mô hình, nhưng không cập nhật mô hình. Điều này cho phép phát hiện sự khởi đầu của overfit.
EngrStudent

0

Đây là guid làm việc để cây hồi quy tăng từ Elith et al .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Rất hữu ích!

Bạn ít nhất nên sử dụng 1000 cây. Theo tôi hiểu, bạn nên sử dụng kết hợp tỷ lệ học tập, độ phức tạp của cây và số lượng cây đạt được lỗi dự đoán tối thiểu. Các giá trị nhỏ hơn của tỷ lệ học tập dẫn đến rủi ro đào tạo lớn hơn cho cùng số lần lặp, trong khi mỗi lần lặp lại làm giảm rủi ro đào tạo. Nếu số lượng cây đủ lớn, rủi ro có thể được tạo ra nhỏ tùy ý (xem: Hastie et al., 2001, "Các yếu tố của học thống kê, khai thác dữ liệu, suy luận và dự đoán" ).


Đúng là Elith et al. đề nghị như một quy tắc của ngón tay cái để sử dụng 1000 cây. Tuy nhiên, điều này dựa trên một phân tích chi tiết về độ ổn định dự đoán cho bộ dữ liệu cụ thể được sử dụng trong bài báo. Dường như con số tương tự sẽ không hoạt động đối với bất kỳ tập dữ liệu nào có thể. Có lẽ bạn có thể mở rộng câu trả lời của mình một chút bằng cách đưa ra một số chi tiết về phân tích họ đã thực hiện, đặc biệt là trong Phụ lục S1.
DeltaIV

0

Như phổ biến trong một số thuật toán học máy, Boosting phải chịu sự đánh đổi sai lệch về số lượng cây. Nói một cách lỏng lẻo, sự đánh đổi này cho bạn biết rằng: (i) các mô hình yếu có xu hướng sai lệch cao và phương sai thấp: chúng quá cứng để nắm bắt sự thay đổi trong tập dữ liệu huấn luyện, do đó sẽ không hoạt động tốt trong bộ thử nghiệm (thử nghiệm cao lỗi) (ii) các mô hình rất mạnh có xu hướng sai lệch thấp và phương sai cao: chúng quá linh hoạt và chúng phù hợp với tập huấn luyện, vì vậy trong tập kiểm tra (vì các bảng dữ liệu khác với tập huấn luyện), chúng cũng sẽ không hoạt động tốt (lỗi kiểm tra cao)

Khái niệm Tăng cường cây là bắt đầu với những cây nông (mô hình yếu) và tiếp tục thêm những cây nông hơn để cố gắng khắc phục những điểm yếu của cây trước đó. Khi bạn thực hiện quá trình này, lỗi kiểm tra có xu hướng giảm (vì mô hình tổng thể trở nên linh hoạt / mạnh mẽ hơn). Tuy nhiên, nếu bạn thêm quá nhiều cây trong số đó, bạn bắt đầu ghi đè dữ liệu huấn luyện và do đó lỗi kiểm tra tăng lên. Xác nhận chéo giúp tìm kiếm điểm ngọt ngào

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.