Tôi đang cố gắng hiểu làm thế nào để hiểu đầy đủ quy trình ra quyết định của mô hình phân loại cây quyết định được xây dựng bằng sklearn. Hai khía cạnh chính mà tôi đang tìm kiếm là một đại diện graphviz của cây và danh sách các tính năng quan trọng. Điều tôi không hiểu là tầm quan trọng của tính năng được xác định trong bối cảnh của cây. Ví dụ, đây là danh sách các tính năng quan trọng của tôi:
Xếp hạng tính năng: 1. FeatureA (0.300237)
Tính năngB (0.166800)
Tính năngC (0,092472)
Tính năngD (0,075009)
Tính năngE (0,068 310)
Tính năngF (0,067118)
Tính năngG (0,066510)
Tính năngH (0,043502)
Tính năngI (0,040281)
Tính năngJ (0,039006)
Tính năngK (0,032618)
Tính năngL (0,008136)
Tính năngM (0,000000)
Tuy nhiên, khi tôi nhìn vào ngọn cây, nó trông như thế này:
Trên thực tế, một số tính năng được xếp hạng "quan trọng nhất" sẽ không xuất hiện cho đến khi xuống sâu hơn cây và ngọn cây là FeatureJ, một trong những tính năng được xếp hạng thấp nhất. Giả định ngây thơ của tôi sẽ là các tính năng quan trọng nhất sẽ được xếp hạng gần ngọn cây để có tác động lớn nhất. Nếu điều đó không chính xác, thì điều gì làm cho một tính năng "quan trọng"?