suy ra các tính năng quan trọng nhất


7

Cho một tập hợp trường hợp. Đối với mỗi trường hợp, tôi có một vectơ đặc trưng bao gồm các tính năng (số) ( , , ..., ), n >> m. Hơn nữa, với mỗi trường hợp, tôi có một điểm số (có thể quan sát được). Tôi muốn:nmx1x2xmy

  1. tìm ra tập hợp con các tính năng, hoặc kết hợp tuyến tính của chúng, giải thích điểm số tốt nhất.
  2. tạo ra một hình dung tốt đẹp cho việc này.

Tôi đã được chỉ đến Phân tích thành phần chính (PCA). Vấn đề với PCA là nó chỉ tính đến các vectơ đặc trưng; PCA không liên quan các tính năng với điểm số .y

Ứng dụng thực tế: Đưa ra một số lượng lớn các trường hợp vấn đề (ví dụ: các vấn đề của nhân viên bán hàng du lịch) và một số thuật toán để giải quyết vấn đề. Mỗi lần chúng ta giải quyết thể hiện, chúng ta có thể đo tổng thời gian (= điểm) để giải quyết thể hiện. Hơn nữa, đối với mỗi trường hợp, chúng ta có thể có được một số tính năng, ví dụ kích thước của thể hiện te, đường kính đồ thị, v.v ... Tính năng nào trong số này giải thích thời gian tính toán tốt nhất?


Theo "trường hợp", bạn có nghĩa là quan sát (thường là "hàng" dữ liệu)?
StatsStudent

Bạn không thể sử dụng cài đặt mô hình hồi quy và sau đó thực hiện một số hình thức lựa chọn mô hình? Tôi đoán loại mô hình bạn sử dụng sẽ phụ thuộc vào việc bạn có thể giả định tuyến tính hay phi tuyến của mối quan hệ giữa từng tính năng và y kiểm soát các tính năng còn lại. Đối với tuyến tính, mô hình hồi quy tuyến tính sẽ làm. Đối với phi tuyến tính, mô hình phụ gia tổng quát có thể là một lựa chọn.
Isabella Ghement

Giả sử bạn có ít dự đoán hơn so với phiên bản (ví dụ: m <n), bạn có thể thực hiện lựa chọn mô hình dựa trên tiêu chí BIC, phù hợp trong cài đặt giải thích. Theo như trực quan hóa của mô hình cuối cùng, các ô hiệu ứng có thể hoạt động - chúng sẽ cho phép bạn hiển thị hiệu ứng của từng tính năng trên y sau khi kiểm soát các tính năng còn lại có trong mô hình cuối cùng. Xem mạng xã hội.mcmaster.ca / jfox / Papers / .
Isabella Ghement

Bạn có thể làm rõ loại mối quan hệ giữa điểm số và các tính năng đầu vào (ví dụ: nó là tuyến tính)? Thật khó để nói từ cụm từ trong (1) (ví dụ: bạn có thể coi điểm số là một hàm phi tuyến của sự kết hợp tuyến tính của các tính năng). Ngoài ra, bạn có suy nghĩ cụ thể về "giải thích tốt nhất về điểm số không?
user20160

Tôi nghĩ bạn cần một thuật toán lựa chọn tính năng: en.wikipedia.org/wiki/Feature_selection
Steve Prestwich

Câu trả lời:


0

Có rất nhiều lựa chọn, nó phụ thuộc chính xác những gì bạn muốn.

Tầm quan trọng tính năng hoặc tầm quan trọng hoán vị

Cả hai phương pháp đều cho bạn biết các tính năng nào là quan trọng nhất đối với mô hình. Nó là một con số cho mỗi tính năng. Nó được tính toán sau khi mô hình được trang bị. Nó không cho bạn biết bất cứ điều gì về giá trị của một tính năng ngụ ý điểm số nào.

Trong sklearn hầu hết modelz có model.feature_importances_. Tổng của tất cả các tính năng quan trọng là 1.

Tầm quan trọng của phép được tính cho một mô hình được trang bị. Nó cho bạn biết số liệu sẽ tệ hơn bao nhiêu nếu bạn xáo trộn cột tính năng.

Mã giả:

    model.fit()
    base_score = model.score(x_dev, y_dev)
    for i in range(nr_features):
        x_dev_copy = copy(x_dev)
        x_dev_copy[:, i] = shuffle(x_dev_copy[:, i])
        perm_score = model.score(x_dev_copy, y_dev)
        perm_imp[i] = (perm_score - base_score) / base_score

Bạn có thể đọc thêm về tầm quan trọng hoán vị ở đây .

Lô đất phụ thuộc một phần

cho bạn biết giá trị nào của tính năng tăng / giảm giá trị dự đoán. Nó trông như thế này:

nhập mô tả hình ảnh ở đây

Thông tin thêm về Kaggle: Các lô phụ thuộc một phần hoặc đi thẳng đến thư viện PDPbox GitHub .

Giá trị SHAP

giải thích tại sao mô hình đưa ra dự đoán cụ thể cho trường hợp cụ thể. Nó vẽ đồ thị sau cho bạn biết giá trị tính năng nào đã chuyển dự đoán từ giá trị trung bình sang giá trị hiện tại cho phiên bản hiện tại.

nhập mô tả hình ảnh ở đây

Kiểm tra thư viện SHAP để biết thêm chi tiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.