Tôi đang chạy mô hình hồi quy cả với Lasso và Ridge (để dự đoán một biến kết quả rời rạc từ 0-5). Trước khi chạy mô hình, tôi sử dụng SelectKBest
phương pháp scikit-learn
để giảm bộ tính năng từ 250 xuống 25 . Nếu không có lựa chọn tính năng ban đầu, cả Lasso và Ridge đều cho điểm chính xác thấp hơn [có thể là do kích thước mẫu nhỏ, 600]. Ngoài ra, lưu ý rằng một số tính năng có tương quan.
Sau khi chạy mô hình, tôi quan sát thấy độ chính xác dự đoán gần như giống với Lasso và Ridge. Tuy nhiên, khi tôi kiểm tra 10 tính năng đầu tiên sau khi đặt hàng chúng theo giá trị tuyệt đối của các hệ số, tôi thấy rằng có nhiều nhất là 50% trùng lặp.
Đó là, do tầm quan trọng khác nhau của các tính năng được chỉ định bởi mỗi phương thức, tôi có thể có một cách hiểu hoàn toàn khác nhau dựa trên mô hình mà tôi chọn.
Thông thường, các tính năng đại diện cho một số khía cạnh của hành vi người dùng trong một trang web. Do đó, tôi muốn giải thích những phát hiện bằng cách làm nổi bật các tính năng (hành vi của người dùng) với khả năng dự đoán mạnh hơn so với các tính năng yếu hơn (hành vi của người dùng). Tuy nhiên, tôi không biết làm thế nào để tiến về phía trước vào thời điểm này. Làm thế nào tôi nên tiếp cận để giải thích mô hình? Ví dụ, nên kết hợp cả hai và làm nổi bật cái chồng chéo, hay tôi nên đi với Lasso vì nó cung cấp nhiều tính dễ hiểu hơn?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .