Tôi đã xây dựng một trình phân loại hồi quy logistic rất chính xác trên dữ liệu của mình. Bây giờ tôi muốn hiểu rõ hơn tại sao nó hoạt động tốt như vậy. Cụ thể, tôi muốn xếp hạng các tính năng nào có đóng góp lớn nhất (tính năng nào là quan trọng nhất) và, lý tưởng nhất là định lượng mức độ mỗi tính năng đóng góp vào độ chính xác của mô hình tổng thể (hoặc một cái gì đó trong tĩnh mạch này). Làm thế nào để tôi làm điều này?
Suy nghĩ đầu tiên của tôi là xếp hạng chúng dựa trên hệ số của chúng, nhưng tôi nghi ngờ điều này không thể đúng. Nếu tôi có hai tính năng hữu ích như nhau, nhưng mức độ lây lan của lần đầu tiên lớn gấp mười lần tính năng thứ hai, thì tôi mong muốn tính năng đầu tiên nhận được hệ số thấp hơn hệ số thứ hai. Có cách nào hợp lý hơn để đánh giá tầm quan trọng của tính năng?
Lưu ý rằng tôi không cố gắng hiểu mức độ thay đổi nhỏ của tính năng ảnh hưởng đến xác suất của kết quả. Thay vào đó, tôi đang cố gắng hiểu giá trị của từng tính năng là như thế nào, về mặt làm cho trình phân loại chính xác. Ngoài ra, mục tiêu của tôi không phải là quá nhiều để thực hiện lựa chọn tính năng hoặc xây dựng một mô hình với ít tính năng hơn, nhưng để cố gắng cung cấp một số "giải thích" cho mô hình đã học, vì vậy trình phân loại không chỉ là một hộp đen mờ.