Tính năng quan trọng với các tính năng phân loại cardinality cao cho hồi quy (biến phụ thuộc số)


12

Tôi đã cố gắng sử dụng các tính năng quan trọng từ Rừng ngẫu nhiên để thực hiện một số lựa chọn tính năng theo kinh nghiệm cho vấn đề hồi quy trong đó tất cả các tính năng là phân loại và rất nhiều trong số chúng có nhiều cấp độ (theo thứ tự 100-1000). Cho rằng mã hóa một nóng tạo ra một biến giả cho mỗi cấp độ, các mức độ quan trọng của tính năng dành cho từng cấp độ chứ không phải cho từng tính năng (cột). Một cách tốt để tổng hợp các tính năng quan trọng này là gì?

Tôi đã nghĩ về việc tổng hợp hoặc nhận được tầm quan trọng trung bình cho tất cả các cấp độ của một tính năng (có thể trước đây sẽ thiên về các tính năng đó với nhiều cấp độ hơn). Có bất kỳ tài liệu tham khảo về vấn đề này?

Người ta có thể làm gì khác để giảm số lượng tính năng? Tôi biết về nhóm Lasso, không thể tìm thấy bất cứ thứ gì dễ sử dụng cho scikit-learn.


Bất cứ ai cũng có thể trả lời câu hỏi liệu tổng hợp tầm quan trọng của từng cấp độ của biến phân loại có ý nghĩa không?
xem 24

@ see24 Không, bạn không thể chỉ tổng hợp chúng: stats.stackexchange.com/questions/314567/iêu
Dan

Câu trả lời:


5

Nó phụ thuộc vào cách bạn mã hóa một nóng chúng. Nhiều giải pháp tự động cho điều đó sẽ đặt tên cho tất cả các booleans được chuyển đổi với một mẫu sao cho một biến phân loại được gọi là "chữ cái" với các giá trị AZ sẽ kết thúc như sau:

letter_A, letter_B, letter_C, letter_D, ....

Nếu sau khi bạn nhận ra tầm quan trọng của tính năng, bạn có một mảng tính năng và trọng số / mức độ quan trọng liên quan, tôi sẽ phân tích mảng và có thể tổng hợp các trọng số tính năng cho mọi thứ bắt đầu bằng "chữ%".


3
Không phải là tổng số mang lại lợi thế cho các tính năng đó với nhiều cấp độ hơn sao?
user90772

Hmm, điểm tốt. Có thể tổng hợp nó sau đó chia cho số cấp / biến được mã hóa một lần nóng để có mức độ quan trọng "trung bình".
CalZ

2
Tôi đã nghĩ về điều này nhiều hơn và nó phụ thuộc vào mức độ quan trọng được ghi. Trong một số trường hợp, giá trị cho mỗi tính năng là một trọng số tương đối trong đó toàn bộ tập hợp là 1. Trong trường hợp đó, tôi nghĩ sẽ có ý nghĩa khi tổng hợp các tính năng một nóng. Nếu điểm cho tính năng giống như hệ số hồi quy và không được tính trọng số so với hiệu ứng ròng, thì trung bình có lẽ sẽ tốt hơn.
CalZ

Cảm ơn bạn đã trả lời. Cho rằng tôi khá mới đối với khu vực này, tôi nghĩ rằng đây là điều tiêu chuẩn cho mọi người trong khoa học dữ liệu nhưng đó không phải là điều tôi nên làm để đánh giá tầm quan trọng của một cột hoặc bài đăng này không có đủ lượt xem. Trong mọi trường hợp, cảm ơn bạn!
user90772

1
Nhiều người ủng hộ việc xem nội bộ của mô hình như một hộp đen và đánh giá hiệu suất thay thế. Trong một số trường hợp nhất định (ví dụ: mạng thần kinh) điều này là do bạn thực sự không thể kiểm tra sâu. Đối với một số nơi bạn có thể dễ dàng có được chế độ xem các tính năng nào là quan trọng (ví dụ: hồi quy tuyến tính), bạn có thể dễ dàng bị đánh lừa (xem: stats.stackexchange.com/questions/105114/ .) Tôi nghĩ đó là lý do tại sao mọi người đôi khi ngại nhìn vào tầm quan trọng của từng tính năng.
CalZ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.