Hiểu những tính năng nào là quan trọng nhất cho hồi quy logistic


17

Tôi đã xây dựng một trình phân loại hồi quy logistic rất chính xác trên dữ liệu của mình. Bây giờ tôi muốn hiểu rõ hơn tại sao nó hoạt động tốt như vậy. Cụ thể, tôi muốn xếp hạng các tính năng nào có đóng góp lớn nhất (tính năng nào là quan trọng nhất) và, lý tưởng nhất là định lượng mức độ mỗi tính năng đóng góp vào độ chính xác của mô hình tổng thể (hoặc một cái gì đó trong tĩnh mạch này). Làm thế nào để tôi làm điều này?

Suy nghĩ đầu tiên của tôi là xếp hạng chúng dựa trên hệ số của chúng, nhưng tôi nghi ngờ điều này không thể đúng. Nếu tôi có hai tính năng hữu ích như nhau, nhưng mức độ lây lan của lần đầu tiên lớn gấp mười lần tính năng thứ hai, thì tôi mong muốn tính năng đầu tiên nhận được hệ số thấp hơn hệ số thứ hai. Có cách nào hợp lý hơn để đánh giá tầm quan trọng của tính năng?

Lưu ý rằng tôi không cố gắng hiểu mức độ thay đổi nhỏ của tính năng ảnh hưởng đến xác suất của kết quả. Thay vào đó, tôi đang cố gắng hiểu giá trị của từng tính năng là như thế nào, về mặt làm cho trình phân loại chính xác. Ngoài ra, mục tiêu của tôi không phải là quá nhiều để thực hiện lựa chọn tính năng hoặc xây dựng một mô hình với ít tính năng hơn, nhưng để cố gắng cung cấp một số "giải thích" cho mô hình đã học, vì vậy trình phân loại không chỉ là một hộp đen mờ.


Tôi muốn ném vào đó Rừng ngẫu nhiên cũng là một kỹ thuật tốt ở đây. Bạn có thể kiểm tra các phần tách trên cùng của khu rừng để có được trực giác về các tính năng đóng góp nhiều nhất cho dự đoán.

Câu trả lời:


14

Điều đầu tiên cần lưu ý là bạn không sử dụng hồi quy logistic làm phân loại. Việc là nhị phân hoàn toàn không liên quan gì đến việc sử dụng phương pháp khả năng tối đa này để thực sự phân loại các quan sát. Khi bạn đã vượt qua điều đó, hãy tập trung vào thước đo thông tin tiêu chuẩn vàng là sản phẩm phụ của khả năng tối đa: tỷ lệ khả năng thống kê. Bạn có thể tạo một biểu đồ cho thấy sự đóng góp một phần của từng yếu tố dự đoán theo khía cạnh của nóχ 2 χ 2Yχ2χ2thống kê. Những thống kê này có thông tin / sức mạnh tối đa. Bạn có thể sử dụng bootstrap để cho biết mức độ khó khi chọn "người chiến thắng" và "kẻ thua cuộc" bằng cách đặt khoảng tin cậy trên hàng ngũ thông tin dự đoán được cung cấp bởi mỗi người dự đoán khi các yếu tố dự đoán khác được tính. Một ví dụ là trong Phần 5.4 của ghi chú khóa học của tôi - nhấp vào Handouts rồi Handouts một lần nữa.

Nếu bạn có các tính năng tương quan cao, bạn có thể thực hiện "kiểm tra khối" để kết hợp ảnh hưởng của chúng. Một biểu đồ thực hiện điều này được đưa ra trong Hình 15.11 trong đó sizethể hiện sự đóng góp kết hợp của 4 yếu tố dự đoán riêng biệt.


6

Câu trả lời ngắn gọn là không có cách duy nhất, "đúng" để trả lời câu hỏi này.

Để xem xét tốt nhất các vấn đề, xem các bài báo của Ulrike Groemping, ví dụ: Ước tính của Tầm quan trọng tương đối trong hồi quy tuyến tính dựa trên phân tích phương sai . Các tùy chọn mà cô thảo luận bao gồm từ các phương pháp phỏng đoán đơn giản đến các giải pháp đa biến, chuyên sâu về CPU.

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/doads/amstat07mayp139.pdf

Groemping đề xuất cách tiếp cận của riêng mình trong gói R có tên là RELAIMPO cũng đáng đọc.

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

Một heuristic nhanh và bẩn mà tôi đã sử dụng là tổng hợp các bình phương chi (giá trị F, thống kê t) được liên kết với từng tham số sau đó áp dụng lại các giá trị riêng lẻ với tổng đó. Kết quả sẽ là một số liệu có tầm quan trọng tương đối có thể xếp hạng.

Điều đó nói rằng, tôi chưa bao giờ là một fan hâm mộ của "hệ số beta được tiêu chuẩn hóa" mặc dù chúng thường được giới chuyên môn khuyên dùng và sử dụng rộng rãi. Đây là vấn đề với họ: tiêu chuẩn hóa là đơn biến và bên ngoài đối với giải pháp mô hình. Nói cách khác, cách tiếp cận này không phản ánh bản chất có điều kiện của kết quả của mô hình.


Cảm ơn câu trả lời và các liên kết! Bạn có thể giải thích hoặc giúp tôi hiểu "bên ngoài giải pháp mô hình" và "bản chất có điều kiện của kết quả của mô hình" nghĩa là gì không? (Tôi không phải là chuyên gia về thống kê, than ôi.)
DW

1
Đừng lo lắng. Khái niệm về cách các mô hình "kiểm soát" hoặc điều kiện cho các yếu tố khác trong mô hình có thể là một trong những điều mà nhiều nhà thống kê thực sự có thể đồng ý. Đây cũng là một chủ đề được thấy rất nhiều bình luận trên trang web này. Đây là một liên kết đến một chủ đề như vậy: stats.stackexchange.com/questions/17336/ Khăn Một trong những ý kiến ​​hay nhất trong đó là bởi @whuber đã nói, 'Bạn có thể nghĩ về "kiểm soát" là "kế toán (theo nghĩa vuông nhỏ nhất ) cho sự đóng góp / ảnh hưởng / hiệu ứng / liên kết của một biến trên tất cả các biến khác. '
Mike Hunter

Cảm ơn! Tôi quen thuộc với khái niệm "kiểm soát" một số yếu tố. Làm thế nào điều đó liên quan đến hoặc giúp hiểu ý nghĩa của "bên ngoài đối với giải pháp mô hình" hoặc "bản chất có điều kiện của kết quả của mô hình"?
DW

Chuẩn hóa các yếu tố dự đoán để tạo ra một "beta được chuẩn hóa" thường được thực hiện trước khi một mô hình được xây dựng, đúng không? Do đó, biến đổi đó là "bên ngoài" đối với giải pháp của mô hình. Với tôi cho đến nay?
Mike Hunter

ĐỒNG Ý. Tôi có thể hiểu những gì bạn có nghĩa là "bên ngoài" bây giờ - cảm ơn vì lời giải thích. Bạn có thể giải thích tại sao đây là một vấn đề, và "bản chất có điều kiện ..." nghĩa là gì? (Có lẽ hai câu hỏi đó là cùng một câu hỏi với cùng một câu trả lời ...) Xin lỗi để tiêu cho bạn câu hỏi! Tôi mong muốn hiểu những gì bạn đã viết.
DW

3

Một cách khá mạnh mẽ để làm điều này sẽ là thử lắp mô hình N lần trong đó N là số lượng tính năng. Mỗi lần sử dụng N-1 của các tính năng và loại bỏ một tính năng. Sau đó, bạn có thể sử dụng số liệu xác thực yêu thích của mình để đo mức độ bao gồm hoặc loại trừ của từng tính năng ảnh hưởng đến hiệu suất của mô hình. Tùy thuộc vào số lượng tính năng bạn có, tính năng này có thể đắt tiền.


4
Điều này không xử lý tốt các tính năng tương quan. Thật dễ dàng để thiết kế một tình huống trong đó hai tính năng có mối tương quan cao, do đó việc loại bỏ một trong số chúng sẽ tác động đến sức mạnh dự đoán một cách tối thiểu, nhưng loại bỏ cả hai tác động nghiêm trọng. Về cơ bản, một trong đó hai dự đoán mang thông tin gần như giống hệt nhau, nhưng quan trọng.
Matthew Drury

2
Tôi đồng ý. Đây cũng là một mối nguy hiểm khi kiểm tra các hệ số.
Daniel Johnson

1
Hơi đúng. Hơi đúng.
Matthew Drury

2

Bạn đã đúng trong quan sát của mình rằng chỉ nhìn vào kích thước của hệ số ước tínhkhông phải là rất có ý nghĩa cho lý do được đề cập. Nhưng một điều chỉnh đơn giản là nhân hệ số ước tính với độ lệch chuẩn ước tính của bộ dự đoán và sử dụng điều này như một thước đo tầm quan trọng. Điều này đôi khi được gọi là hệ số beta được tiêu chuẩn hóa và trong hồi quy logistic, nó thể hiện sự thay đổi trong tỷ lệ thành công log ước tính gây ra bởi một thay đổi độ lệch chuẩn trong . Một vấn đề với điều này là nó bị hỏng khi bạn không còn phải đối phó với các yếu tố dự đoán số.| ^ β j | Σ j x j|βj^||βj^|σ^jxj

Về điểm cuối cùng của bạn, tất nhiên có thể một biến có thể đóng góp rất nhiều vào tỷ lệ cược log ước tính trong khi không thực sự ảnh hưởng đến tỷ lệ cược log "thật", nhưng tôi không nghĩ rằng điều này cần phải quá lo lắng nếu chúng ta có bất kỳ sự tin tưởng trong thủ tục tạo ra các ước tính.


0

Bạn đã đúng về lý do tại sao bạn không nên sử dụng các hệ số làm thước đo mức độ phù hợp, nhưng bạn hoàn toàn có thể nếu bạn chia chúng cho lỗi tiêu chuẩn của chúng! Nếu bạn đã ước tính mô hình với R, thì nó đã được thực hiện cho bạn! Bạn thậm chí có thể loại bỏ các tính năng ít quan trọng nhất khỏi mô hình và xem nó hoạt động như thế nào.

Một cách tiếp cận heuristic hơn để nghiên cứu làm thế nào các thay đổi khác nhau trong các biến làm thay đổi kết quả đang làm chính xác điều đó: thử các đầu vào khác nhau và nghiên cứu xác suất ước tính của chúng. Tuy nhiên, vì mô hình của bạn khá đơn giản, tôi sẽ khuyên bạn nên chống lại điều đó

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.