Câu hỏi này được giải quyết trong bài viết rất tốt đẹp này. Xin hãy xem nó và các tài liệu tham khảo trong đó. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Lưu ý trong bài viết rằng nói về hiệu chuẩn, và liên kết đến một bài đăng blog (tốt đẹp) khác về nó. Tuy nhiên, tôi thấy rằng bài báo Lấy Xác suất Hiệu chuẩn từ Tăng tốc giúp bạn hiểu rõ hơn về hiệu chuẩn trong bối cảnh của các trình phân loại được tăng cường là gì và phương pháp chuẩn để thực hiện nó là gì.
Và cuối cùng là thiếu một khía cạnh (lý thuyết hơn một chút). Cả RF và GBM đều là các phương thức đồng bộ, nghĩa là bạn xây dựng một trình phân loại ra một số lượng lớn các phân loại nhỏ hơn. Bây giờ sự khác biệt cơ bản nằm ở phương pháp được sử dụng:
- RF sử dụng cây quyết định, rất dễ bị quá mức. Để đạt được độ chính xác cao hơn, RF quyết định tạo ra một số lượng lớn trong số chúng dựa trên việc đóng bao . Ý tưởng cơ bản là lấy mẫu lại dữ liệu nhiều lần và cho mỗi mẫu đào tạo một bộ phân loại mới. Các phân loại khác nhau vượt quá dữ liệu theo một cách khác và thông qua bỏ phiếu những khác biệt đó được tính trung bình.
- GBM là một phương pháp thúc đẩy, dựa trên các phân loại yếu . Ý tưởng là thêm một bộ phân loại tại một thời điểm, để bộ phân loại tiếp theo được đào tạo để cải thiện bộ đồng phục đã được đào tạo. Lưu ý rằng đối với RF, mỗi lần lặp, bộ phân loại được đào tạo độc lập với phần còn lại.