Từ hướng dẫn của XGBoost, tôi nghĩ rằng khi mỗi cây phát triển, tất cả các biến được quét sẽ được chọn để phân chia các nút và biến có mức tăng tối đa sẽ được chọn. Vì vậy, câu hỏi của tôi là nếu tôi thêm một số biến nhiễu vào tập dữ liệu, liệu các biến nhiễu này có ảnh hưởng đến việc lựa chọn các biến (cho mỗi cây đang phát triển) không? Logic của tôi là bởi vì các biến nhiễu này KHÔNG phân chia mức tăng tối đa, nên chúng sẽ không bao giờ được chọn do đó chúng không ảnh hưởng đến sự phát triển của cây.
Nếu câu trả lời là có, thì có đúng là "càng nhiều biến càng tốt cho XGBoost" không? Chúng ta đừng xem xét thời gian đào tạo.
Ngoài ra, nếu câu trả lời là có, thì có đúng là "chúng ta không cần phải lọc ra các biến không quan trọng trong mô hình".
Cảm ơn bạn!