Gradient Boosting Tree vs Random Forest


110

Tăng cường cây dốc theo đề xuất của Friedman sử dụng cây quyết định làm người học cơ sở. Tôi đang tự hỏi liệu chúng ta nên làm cho cây quyết định cơ sở phức tạp nhất có thể (phát triển đầy đủ) hay đơn giản hơn? Có bất kỳ lời giải thích cho sự lựa chọn?

Rừng ngẫu nhiên là một phương pháp tập hợp khác sử dụng cây quyết định làm người học cơ sở. Dựa trên sự hiểu biết của tôi, chúng ta thường sử dụng các cây quyết định gần như phát triển đầy đủ trong mỗi lần lặp. Tôi có đúng không


1
Bạn có thể tìm thấy một tài liệu tham khảo rất tốt khác cho các cây được tăng cường ở đây: xgboost.readthedocs.io/en/latest/model.html
Naghmeh

@Naghmeh - Liên kết chết; dường như đã chuyển sang xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

Câu trả lời:


149

error = bias + variance

  • Tăng cường dựa trên những người học yếu (độ lệch cao, phương sai thấp). Về mặt cây quyết định, người học yếu là cây nông, đôi khi còn nhỏ như gốc cây quyết định (cây có hai lá). Tăng cường giảm lỗi chủ yếu bằng cách giảm sai lệch (và cũng ở một mức độ sai lệch nào đó, bằng cách tổng hợp đầu ra từ nhiều mô hình).
  • Mặt khác, Rừng ngẫu nhiên sử dụng như bạn đã nói cây quyết định được trồng hoàn toàn (độ lệch thấp, phương sai cao). Nó xử lý tác vụ giảm lỗi theo cách ngược lại: bằng cách giảm phương sai. Các cây được tạo ra không tương thích để tối đa hóa việc giảm phương sai, nhưng thuật toán không thể làm giảm độ lệch (cao hơn một chút so với độ lệch của một cây riêng lẻ trong rừng). Do đó, cần có những cây lớn, không có cây, do đó độ lệch ban đầu càng thấp càng tốt.

Xin lưu ý rằng không giống như Boosting (là tuần tự), RF phát triển cây song song . Thuật ngữ iterativemà bạn sử dụng là không phù hợp.


1
"Các cây được tạo ra không tương thích để tối đa hóa sự giảm phương sai, nhưng thuật toán không thể làm giảm độ lệch (cao hơn một chút so với độ lệch của một cây riêng lẻ trong rừng)" - phần về "cao hơn một chút so với độ lệch của một cá thể cây trong rừng "dường như không chính xác. Xem web.stanford.edu/~hastie/Papers/ESLII.pdf phần 15.4.2: "Giống như trong việc đóng bao, sự thiên vị của một khu rừng ngẫu nhiên cũng giống như sự thiên vị của bất kỳ cây nào được lấy mẫu riêng lẻ." Có lẽ bạn có nghĩa là "cao hơn một chút so với độ lệch của một cây được trồng hoàn toàn phù hợp với dữ liệu gốc"?
Adrian

1
@gung Tôi nghĩ có một câu hỏi quan trọng chưa được trả lời trong OP, đó là: tại sao không sử dụng cây được trồng hoàn toàn ở bước đầu tiên của GBM? Tại sao sử dụng một chuỗi người học yếu lại tốt hơn một cây được trồng hoàn toàn? Tôi tò mò về điều đó
ftxx

55

Câu hỏi này được giải quyết trong bài viết rất tốt đẹp này. Xin hãy xem nó và các tài liệu tham khảo trong đó. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

Lưu ý trong bài viết rằng nói về hiệu chuẩn, và liên kết đến một bài đăng blog (tốt đẹp) khác về nó. Tuy nhiên, tôi thấy rằng bài báo Lấy Xác suất Hiệu chuẩn từ Tăng tốc giúp bạn hiểu rõ hơn về hiệu chuẩn trong bối cảnh của các trình phân loại được tăng cường là gì và phương pháp chuẩn để thực hiện nó là gì.

Và cuối cùng là thiếu một khía cạnh (lý thuyết hơn một chút). Cả RF và GBM đều là các phương thức đồng bộ, nghĩa là bạn xây dựng một trình phân loại ra một số lượng lớn các phân loại nhỏ hơn. Bây giờ sự khác biệt cơ bản nằm ở phương pháp được sử dụng:

  1. RF sử dụng cây quyết định, rất dễ bị quá mức. Để đạt được độ chính xác cao hơn, RF quyết định tạo ra một số lượng lớn trong số chúng dựa trên việc đóng bao . Ý tưởng cơ bản là lấy mẫu lại dữ liệu nhiều lần và cho mỗi mẫu đào tạo một bộ phân loại mới. Các phân loại khác nhau vượt quá dữ liệu theo một cách khác và thông qua bỏ phiếu những khác biệt đó được tính trung bình.
  2. GBM là một phương pháp thúc đẩy, dựa trên các phân loại yếu . Ý tưởng là thêm một bộ phân loại tại một thời điểm, để bộ phân loại tiếp theo được đào tạo để cải thiện bộ đồng phục đã được đào tạo. Lưu ý rằng đối với RF, mỗi lần lặp, bộ phân loại được đào tạo độc lập với phần còn lại.

3
Nó sẽ là một kết luận công bằng từ câu trả lời của bạn rằng RF mặc trang phục nhiều hơn GBM?
18 lúc 22 giờ 42 phút

4
@ 8forty Tôi sẽ không rút ra kết luận đó - trong khi một cây trong RF sẽ phù hợp hơn một cây trong GBM (vì những cây này nhỏ hơn nhiều), trong RF, những cây này sẽ được tính trung bình khi sử dụng nhiều cây, trong khi ở GBM bạn càng thêm nhiều cây, nguy cơ bị thừa. Nói tóm lại, khi N (số lượng cây được sử dụng) chuyển sang vô cùng, tôi hy vọng RF sẽ vượt quá ít hơn GBM
Ant
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.