Tính năng xếp hạng trong hồi quy logistic


10

Tôi đã sử dụng hồi quy logistic. Tôi có sáu tính năng, tôi muốn biết các tính năng quan trọng trong phân loại này có ảnh hưởng đến kết quả hơn các tính năng khác. Tôi đã sử dụng Information Gain nhưng có vẻ như nó không phụ thuộc vào trình phân loại đã sử dụng. Có phương pháp nào để xếp hạng các tính năng theo mức độ quan trọng của chúng dựa trên phân loại cụ thể (như Hồi quy logistic) không? Bất cứ sự giúp đỡ nào cũng được đánh giá cao.


3
Hồi quy logistic không phải là một phân loại. Vui lòng viết lại câu hỏi của bạn để phản ánh rằng hồi quy logistic là mô hình ước lượng xác suất trực tiếp.
Frank Harrell

1
Ngoài quan điểm của FrankHarrell, bạn có nhìn vào giá trị của các hệ số ước tính của bạn không? Nó chắc chắn không phải là cách tốt nhất để xếp hạng các tính năng nhưng nó có thể cung cấp cho bạn một điểm khởi đầu. p
usεr11852

9
Chắc chắn, hồi quy logistic đang ước tính xác suất và không phân loại rõ ràng mọi thứ, nhưng ai quan tâm? Mục đích thường là để quyết định lớp nào có khả năng nhất và không có gì sai khi gọi nó là phân loại nếu đó là những gì bạn đang sử dụng nó cho.
DSaxton

Câu trả lời:


5

Tôi nghĩ rằng câu trả lời bạn đang tìm kiếm có thể là thuật toán Boruta . Đây là phương pháp trình bao bọc trực tiếp đo tầm quan trọng của các tính năng theo nghĩa "tất cả mức độ phù hợp" và được triển khai trong gói R , tạo ra các lô đẹp như cốt truyện nàytầm quan trọng của bất kỳ tính năng nào trên trục y và được so sánh với null âm mưu màu xanh ở đây. Bài đăng trên blog này mô tả cách tiếp cận và tôi khuyên bạn nên đọc nó như một phần giới thiệu rất rõ ràng.


Gợi ý hay (+1). Tôi nghĩ rằng nó là một chút quá mức cho ứng dụng này nhưng vẫn bổ sung tốt. Tôi chắc chắn đánh giá cao rằng nó sẽ làm tốt trong các tình huống . Bạn có biết về bất kỳ nghiên cứu đánh giá so sánh nào khi nó được so sánh với các thuật toán phân loại khác không? p>>n
usεr11852

@ usεr11852 Không, tôi không. Tôi chỉ mới bắt gặp điều này trong tuần qua hoặc lâu hơn.
babelproofreader

Hmmm ... OK, Boruta có vẻ rất hứa hẹn nhưng tôi luôn hoài nghi về các thuật toán mới tuyệt vời cho đến khi tôi thấy chúng là một phần của nghiên cứu lớn hơn và xem các trường hợp chúng không xuất sắc ( không có định lý bữa trưa miễn phí ).
usεr11852

Ý tưởng thú vị nhưng không liên quan đến hồi quy logistic.
Frank Harrell

"Boruta là phương pháp chọn tính năng, không phải là phương pháp xếp hạng tính năng" Xem Câu hỏi thường gặp trên trang chủ gói
ổn định

3

Để bắt đầu hiểu cách xếp hạng các biến theo mức độ quan trọng cho các mô hình hồi quy, bạn có thể bắt đầu với hồi quy tuyến tính. Một cách tiếp cận phổ biến để xếp hạng tầm quan trọng của một biến trong mô hình hồi quy tuyến tính là phân tách thành các đóng góp được quy cho mỗi biến. Nhưng tầm quan trọng của biến không đơn giản trong hồi quy tuyến tính do mối tương quan giữa các biến. Tham khảo tài liệu mô tả phương pháp PMD (Feldman, 2005) [ 3 ]. Một cách tiếp cận phổ biến khác là tính trung bình theo thứ tự (LMG, 1980) [ 2 ].R2

Không có nhiều sự đồng thuận về cách xếp hạng các biến cho hồi quy logistic. Một tổng quan tốt về chủ đề này được đưa ra trong [ 1 ], nó mô tả các điều chỉnh của các kỹ thuật quan trọng tương đối hồi quy tuyến tính bằng Pseudo- cho hồi quy logistic.R2

Một danh sách các cách tiếp cận phổ biến để xếp hạng tầm quan trọng của tính năng trong các mô hình hồi quy logistic là:

  1. Tương quan một phần giả logistic (sử dụng Pseudo- )R2
  2. Tính đầy đủ: tỷ lệ của nhật ký mô hình đầy đủ ‐ khả năng có thể giải thích được của từng người dự đoán
  3. Khả năng kết hợp: Biểu thị khả năng của một mô hình để phân biệt giữa các biến phản ứng tích cực và tiêu cực. Một mô hình riêng biệt được xây dựng cho từng người dự đoán và điểm quan trọng là xác suất dự đoán của dương tính thực sự chỉ dựa trên dự đoán đó.
  4. Giá trị thông tin: Giá trị thông tin định lượng lượng thông tin về kết quả thu được từ một người dự đoán. Nó dựa trên một phân tích lần lượt của từng yếu tố dự đoán mà không tính đến các yếu tố dự đoán khác.

Người giới thiệu:

  1. Về việc đo lường tầm quan trọng tương đối của các biến giải thích trong hồi quy logistic
  2. Tầm quan trọng tương đối của các hồi quy tuyến tính trong R
  3. Tầm quan trọng và giá trị tương đối, Barry Feldman (phương pháp PMD)

0

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
xiyiiwbfw,b(xi)

Giả sử tất cả được chuẩn hóa, ví dụ: bằng cách vượt qua độ lớn của , khá dễ dàng để xem biến nào quan trọng hơn: những biến đó lớn hơn cf khác hoặc (về mặt tiêu cực ) cf nhỏ hơn những người khác. Họ ảnh hưởng đến sự mất mát nhiều nhất.xx

Nếu bạn quan tâm đến việc tìm kiếm các biến thực sự quan trọng và trong quá trình không tâm đến việc loại bỏ một vài biến, bạn có thể thường xuyên hóa chức năng mất của mình: 1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

Các công cụ phái sinh hoặc chương trình chính quy khá đơn giản, vì vậy tôi sẽ không đề cập đến chúng ở đây. Sử dụng hình thức chính quy này và một thích hợp sẽ thực thi các yếu tố ít quan trọng hơn trong để trở thành số 0 và các yếu tố khác thì không.λw

Tôi hi vọng cái này giúp được. Hỏi nếu bạn có bất kỳ câu hỏi nào.


4
LR không phải là một sơ đồ phân loại. Bất kỳ việc sử dụng phân loại nào cũng là một bước định giá sau khi xác định hàm tiện ích / chi phí. Ngoài ra, OP không hỏi về ước tính khả năng tối đa bị phạt. Để cung cấp bằng chứng cho tầm quan trọng tương đối của các biến trong hồi quy, rất dễ sử dụng bootstrap để đạt giới hạn tin cậy cho các cấp thông tin dự đoán được thêm bởi mỗi người dự đoán. Một ví dụ xuất hiện trong Chương 4 của Chiến lược mô hình hồi quy có ghi chú trực tuyến và mã R có sẵn tại biostat.mc.vanderbilt.edu/RmS#M vật liệu
Frank Harrell

4
Giáo sư, xin vui lòng. Rõ ràng là chúng ta đang tiếp cận điều này từ hai phía khác nhau. Bạn từ một trong những thống kê và tôi từ máy học. Tôi tôn trọng bạn, nghiên cứu và sự nghiệp của bạn nhưng bạn rất tự do đưa ra câu trả lời của riêng mình và để OP quyết định, câu hỏi nào anh ấy xem là câu trả lời tốt hơn cho câu hỏi của mình. Tôi rất thích học, vì vậy hãy dạy tôi cách tiếp cận của bạn nhưng đừng bắt tôi mua sách của bạn.
pAt84

1
Tôi sẽ chỉ lưu ý rằng hồi quy logistic được phát triển bởi nhà thống kê DR Cox vào năm 1958, nhiều thập kỷ trước khi học máy tồn tại. Cũng cần lưu ý rằng "hàm mất" (tốt hơn có thể gọi là hàm mục tiêu có lẽ?) Mà bạn đã xây dựng không có bất kỳ mối quan hệ nào để phân loại. Và điều gì ngụ ý với bạn rằng các ghi chú và tệp âm thanh mở rộng của tôi có sẵn trực tuyến với tất cả thông tin tôi đề cập đến có giá bất cứ điều gì?
Frank Harrell

2
Tôi ủng hộ cả hai ý kiến ​​ban đầu, vì cả hai đều tăng điểm hợp lệ. Những bình luận sau đó giống như những cuộc cãi vã nhỏ nhặt với tôi ...
usεr11852 14/2/2016

4
PS Cố gắng nói một cách rõ ràng hơn để nói điều này, tối ưu hóa dự đoán / ước tính dẫn đến quyết định tối ưu vì chức năng tiện ích được áp dụng ở bước thứ hai và được phép không liên quan đến các yếu tố dự đoán. Tối ưu hóa dự đoán / ước tính không tối ưu hóa phân loại và ngược lại. Tối ưu hóa số lượng phân loại để sử dụng một chức năng tiện ích lạ được thiết kế riêng cho bộ dữ liệu và có thể không áp dụng cho các bộ dữ liệu mới. Những người thực sự muốn tối ưu hóa phân loại (không được khuyến nghị) có thể sử dụng một phương pháp bỏ qua việc ước tính / dự đoán hoàn toàn.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.