Tôi đã đọc câu hỏi này: Làm thế nào để tôi diễn giải đầu ra của tầm quan trọng của XGBoost? về ba loại quan trọng khác nhau: tần suất (được gọi là "trọng lượng" trong Python XGBoost), mức tăng và độ phủ.
Trong trường hợp của tôi, tôi có một tính năng, Giới tính, có tầm quan trọng rất thấp dựa trên chỉ số tần số, nhưng là tính năng quan trọng nhất từ trước đến nay dựa trên cả mức tăng và số liệu bao trùm.
Tôi biết giới tính nên quan trọng đối với những gì tôi dự đoán. Nếu tôi chỉ vẽ giới tính so với mục tiêu, có một mối tương quan rõ ràng. Tôi không ngạc nhiên khi đó là tính năng quan trọng nhất. Tôi chỉ muốn biết tại sao nó không được coi là một tính năng quan trọng dựa trên số liệu tần số.