Tôi đã trở thành một phần của một kẻ hư vô khi nói đến thứ hạng quan trọng khác nhau (trong bối cảnh của các mô hình đa biến các loại).
Thông thường trong quá trình làm việc, tôi được yêu cầu hỗ trợ một nhóm khác tạo ra một thứ hạng quan trọng khác nhau hoặc tạo ra một thứ hạng quan trọng khác nhau từ công việc của tôi. Đáp lại những yêu cầu này, tôi hỏi những câu hỏi sau
Bạn muốn thứ hạng quan trọng thay đổi này để làm gì? Bạn hy vọng học được gì từ nó? Loại quyết định nào bạn muốn thực hiện bằng cách sử dụng nó?
Các câu trả lời tôi nhận được hầu như luôn thuộc một trong hai loại
- Tôi muốn biết tầm quan trọng của các biến khác nhau trong mô hình của tôi trong việc dự đoán đáp ứng.
- Tôi muốn sử dụng nó để lựa chọn tính năng, bằng cách loại bỏ các biến quan trọng thấp.
Phản hồi đầu tiên là tautological (tôi muốn một thứ hạng quan trọng thay đổi bởi vì tôi muốn một thứ hạng quan trọng thay đổi). Tôi phải cho rằng những thứ hạng này đáp ứng nhu cầu tâm lý khi tiêu thụ đầu ra của một mô hình đa biến. Tôi có một thời gian khó hiểu điều này, vì xếp hạng các biến "tầm quan trọng" riêng lẻ dường như hoàn toàn từ chối bản chất đa chiều của mô hình trong câu hỏi.
Phản hồi thứ hai về cơ bản giảm xuống một phiên bản không chính thức của lựa chọn ngược , các tội thống kê được ghi lại rõ ràng trong các phần khác của CrossValidated.
Tôi cũng đấu tranh với bản chất không xác định của bảng xếp hạng quan trọng. Dường như có rất ít sự đồng ý về khái niệm cơ bản mà bảng xếp hạng nên được đo lường, mang lại cho họ một hương vị rất đặc biệt. Có nhiều cách để gán điểm quan trọng hoặc xếp hạng, và chúng thường bị nhược điểm và cảnh báo:
- Chúng có thể phụ thuộc nhiều vào thuật toán, như trong bảng xếp hạng quan trọng trong các khu rừng và gbms ngẫu nhiên.
- Họ có thể có phương sai rất cao, thay đổi mạnh mẽ với nhiễu loạn dữ liệu cơ bản.
- Họ có thể chịu đựng rất nhiều từ mối tương quan trong các yếu tố dự đoán đầu vào.
Vì vậy, với tất cả những gì đã nói, câu hỏi của tôi là, một số cách sử dụng có giá trị thống kê của bảng xếp hạng tầm quan trọng thay đổi, hoặc, một lý lẽ thuyết phục (cho một nhà thống kê hoặc giáo dân) cho sự vô ích của mong muốn đó là gì? Tôi quan tâm đến cả lập luận lý thuyết chung và nghiên cứu trường hợp, cái nào sẽ hiệu quả hơn trong việc đưa ra quan điểm.
glmnet
có sẵn?