Tầm quan trọng của tính năng XGBoost - Độ tăng và độ che phủ cao nhưng Tần suất thấp


8

Tôi đã đọc câu hỏi này: Làm thế nào để tôi diễn giải đầu ra của tầm quan trọng của XGBoost? về ba loại quan trọng khác nhau: tần suất (được gọi là "trọng lượng" trong Python XGBoost), mức tăng và độ phủ.

Trong trường hợp của tôi, tôi có một tính năng, Giới tính, có tầm quan trọng rất thấp dựa trên chỉ số tần số, nhưng là tính năng quan trọng nhất từ ​​trước đến nay dựa trên cả mức tăng và số liệu bao trùm.

Tôi biết giới tính nên quan trọng đối với những gì tôi dự đoán. Nếu tôi chỉ vẽ giới tính so với mục tiêu, có một mối tương quan rõ ràng. Tôi không ngạc nhiên khi đó là tính năng quan trọng nhất. Tôi chỉ muốn biết tại sao nó không được coi là một tính năng quan trọng dựa trên số liệu tần số.

Câu trả lời:


8

Tôi chỉ muốn biết tại sao nó không được coi là một tính năng quan trọng dựa trên số liệu tần số.

Nhiều khả năng, giới tính biến đổi có số lượng giá trị có thể nhỏ hơn nhiều (thường chỉ có hai: nam / nữ hoặc 0/1, tùy thuộc vào đại diện) so với các yếu tố dự đoán khác trong tập dữ liệu của bạn.

Nếu giới tính chỉ là nhị phân trong trường hợp của bạn, điều đó có nghĩa là nó có thể được sử dụng nhiều nhất một lần trong mỗi cây, trong khi, giả sử, tuổi có thể xuất hiện thường xuyên hơn ở các cấp độ khác nhau của cây.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.