Tôi đã chạy một mô hình xgboost. Tôi không biết chính xác làm thế nào để giải thích đầu ra của xgb.importance
.
Ý nghĩa của Gain, Cover và Tần số là gì và làm thế nào để chúng tôi giải thích chúng?
Ngoài ra, Split, RealCover và RealCover% có nghĩa là gì? Tôi có một số thông số bổ sung ở đây
Có bất kỳ thông số nào khác có thể cho tôi biết thêm về tính năng quan trọng không?
Từ tài liệu R, tôi có một số hiểu rằng Gain là một cái gì đó tương tự như Thông tin đạt được và Tần suất là số lần một tính năng được sử dụng trên tất cả các cây. Tôi không biết Cover là gì.
Tôi đã chạy mã ví dụ được đưa ra trong liên kết (và cũng đã thử làm tương tự với vấn đề mà tôi đang giải quyết), nhưng định nghĩa phân tách được đưa ra ở đó không khớp với các số mà tôi đã tính toán.
importance_matrix
Đầu ra:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05