Làm thế nào để tìm giá trị tối ưu cho các tham số điều chỉnh trong việc tăng cây?


9

Tôi nhận ra rằng có 3 tham số điều chỉnh trong mô hình cây tăng tốc, tức là

  1. số lượng cây (số lần lặp)
  2. tham số co ngót
  3. số lượng phân chia (kích thước của từng cây cấu thành)

Câu hỏi của tôi là: đối với mỗi tham số điều chỉnh, làm thế nào tôi nên tìm giá trị tối ưu của nó? Và phương pháp nào?

Lưu ý rằng: tham số co ngót và số lượng tham số cây hoạt động cùng nhau, nghĩa là một giá trị nhỏ hơn cho tham số co rút dẫn đến giá trị cao hơn cho số lượng cây. Và chúng ta cũng cần phải tính đến điều này.

Tôi đặc biệt quan tâm đến phương pháp tìm giá trị tối ưu cho số lần chia tách. Có nên dựa trên xác thực chéo hoặc kiến ​​thức tên miền về mô hình phía sau?

Và làm thế nào những điều này được thực hiện trong gbmgói trong R?

Câu trả lời:


6

Các caret gói vào R là thiết kế riêng làm cho việc này.

Hàm train của nó lấy một lưới các giá trị tham số và đánh giá hiệu suất bằng cách sử dụng các hương vị khác nhau của xác thực chéo hoặc bootstrap. Tác giả gói đã viết một cuốn sách, Mô hình dự đoán ứng dụng , rất được khuyến khích. 5 lần lặp lại xác nhận chéo 10 lần được sử dụng trong suốt cuốn sách.

Để chọn độ sâu của cây, trước tiên tôi sẽ tìm hiểu kiến ​​thức chủ đề về vấn đề, tức là nếu bạn không mong đợi bất kỳ tương tác nào - giới hạn độ sâu xuống 1 hoặc đi theo mô hình tham số linh hoạt (dễ hiểu và dễ hiểu hơn nhiều). Điều đó đang được nói, tôi thường thấy mình điều chỉnh độ sâu của cây vì kiến ​​thức môn học thường rất hạn chế.

Tôi nghĩ rằng gói gbm điều chỉnh số lượng cây cho các giá trị cố định của độ sâu và độ co của cây.


Cuốn sách có bao gồm mã R không?
dùng1769197

Ý tôi là ví dụ hoạt động bao gồm mã R để chúng tôi hiểu cách các mô hình được triển khai tính toán và áp dụng trên tập dữ liệu
user1769197

1
Có nó làm. Kiểm tra trang web của cuốn sách applicationpredictivemodeling.com để biết thêm thông tin.
ErikL

1

Có hai nguồn tốt cho cây hồi quy được tăng cường và gói gbm. Để giải thích về BRT và tối ưu hóa số lượng cây ( nt), tốc độ học tập ( lr) và độ phức tạp của cây ( tc) xem Hướng dẫn làm việc để tăng cường cây hồi quy Mặc dù nó tập trung vào hệ sinh thái Tôi nghĩ bạn sẽ không tìm thấy giới thiệu tốt hơn về BRT .

Để triển khai BRT trong gói gbm, hãy xem Cây hồi quy Boosted để mô hình hóa sinh thái

Nói tóm lại, một nguyên tắc nhỏ là chọn tỷ lệ học tập cho phép mô hình BRT phù hợp với ít nhất 1000 cây, do đó, chắc chắn bạn sẽ cần tỷ lệ học thấp, có thể là 0,001 để hoàn thành điều đó. Nhưng nó phụ thuộc vào kích thước của dữ liệu của bạn, xem hình. 2 và 3 trong Hướng dẫn làm việc cho BRT. Tôi nghĩ một cách có thể là thiết lập các mô hình khác nhau trong BRT theo kích thước dữ liệu của bạn, ví dụ: kết hợp các lr khác nhau (0,1, 0,01, 0,001), tc (1, 3, 5, 7, 9, 20) với các túi khác nhau .fraction (0,5, 0,7, 0,9) và chọn cái tốt nhất theo độ lệch thấp nhất hoặc điểm ROC cao nhất. Có lẽ nó đã giúp.


1
Để tham khảo, BRT_MODEL$self.statistics$correlation[[1]]là mối tương quan của kiểm tra với dữ liệu đào tạo, đây là một số liệu kiểm tra tốt.
dez93_2000

Nghe có vẻ như một thiết kế thống kê của thí nghiệm với tôi. : P
EngrStudent
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.