Tầm quan trọng của các biến trong hồi quy logistic


11

Tôi có thể đang xử lý một vấn đề có thể đã được giải quyết hàng trăm lần trước đây, nhưng tôi không biết tìm câu trả lời ở đâu.

Khi sử dụng hồi quy logistic, được cung cấp nhiều tính năng và cố gắng dự đoán giá trị phân loại nhị phân , tôi quan tâm đến việc chọn một tập hợp con các tính năng dự đoán tốt. y yx1,...,xnyy

Có một quy trình tương tự như Lasso có thể được sử dụng? (Tôi chỉ thấy lasso được sử dụng cho hồi quy tuyến tính.)

Là nhìn vào các hệ số của mô hình được trang bị cho thấy tầm quan trọng của các tính năng khác nhau?

Chỉnh sửa - Làm rõ sau khi xem một số câu trả lời:

  1. Khi tôi đề cập đến độ lớn của các hệ số được trang bị, tôi có nghĩa là những hệ số được trang bị cho các tính năng chuẩn hóa (trung bình 0 và phương sai 1). Mặt khác, như @probabilityislogic đã chỉ ra, 1000x sẽ xuất hiện ít quan trọng hơn x.

  2. Tôi không quan tâm đến việc đơn giản là tìm tập hợp con k tốt nhất (như @Davide đã cung cấp), nhưng cân nhắc tầm quan trọng của các tính năng khác nhau so với nhau. Ví dụ: một tính năng có thể là "tuổi" và tính năng khác "tuổi> 30". Tầm quan trọng gia tăng của họ có thể ít, nhưng cả hai có thể quan trọng.

Câu trả lời:


8

Phản hồi của DWin cung cấp câu trả lời nhưng ít hiểu biết, vì vậy tôi nghĩ rằng nó có thể hữu ích để cung cấp một số lời giải thích.

Nếu bạn có hai lớp, về cơ bản bạn đang cố ước tính . Đây là tất cả những gì bạn cần và mô hình hồi quy logistic giả định rằng:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

Những gì tôi nghĩ bạn có ý nghĩa bởi tầm quan trọng của tính năng là như thế nào nó ảnh hưởng đến p hay nói cách khác những gì là pjp .pxij

Sau một biến đổi nhỏ, bạn có thể thấy rằng

p=eβ0+β1Txi1+eβ0+β1Txi

Khi bạn tính đạo hàm của mình, bạn sẽ thấy rằng

pxij=βjeβ0+β1Txi

Điều này rõ ràng phụ thuộc vào giá trị của tất cả các biến khác. Tuy nhiên, bạn có thể quan sát rằng DẤU HIỆU của hệ số có thể được hiểu theo cách bạn muốn: nếu nó âm thì tính năng này làm giảm xác suất p.

β

βr^=β^β^+λ

Như bạn có thể thấy điều này có thể thay đổi dấu hiệu của hệ số của bạn để ngay cả việc giải thích bị phá vỡ.


1
lỗi đánh máy trong mẫu số của eq1?
Fernando

7

Câu trả lời cho câu hỏi cuối cùng của bạn là KHÔNG CÓ. Độ lớn của các hệ số không phải là thước đo tầm quan trọng. Lasso có thể được sử dụng cho hồi quy logistic. Bạn cần nghiên cứu khu vực chăm chỉ hơn. Các phương pháp bạn cần nghiên cứu là những phương pháp liên quan đến phương pháp "bị phạt". Nếu bạn đang tìm kiếm các phương pháp phát hiện phát hiện ra các yếu tố dự đoán "bị che khuất", một thuật ngữ có thể được xác định ở đâu đó nhưng không được sử dụng chung, thì bạn cần tìm kiếm các phương pháp kiểm tra các tương tác và cấu trúc phi tuyến tính trong không gian dự đoán và liên kết kết quả đến không gian đó. Có khá nhiều thảo luận về các vấn đề và phương pháp này trong văn bản "Chiến lược mô hình hóa hồi quy" của Frank Harrell.

Chiến lược lựa chọn lạc hậu sẽ không cung cấp kết quả hợp lệ (mặc dù nó mang lại kết quả). Nếu bạn đã xem xét một trường hợp 20 dự đoán ngẫu nhiên cho 100 sự kiện, bạn có thể sẽ tìm thấy 2 hoặc 3 sẽ được chọn với quy trình chọn ngược. Sự phổ biến của lựa chọn lạc hậu trong thế giới thực phản ánh không phải suy nghĩ thống kê cẩn thận mà là sự sẵn có dễ dàng của nó trong SAS và SPSS và thiếu sự tinh tế trong cơ sở người dùng của các sản phẩm đó. Cơ sở người dùng R gặp khó khăn hơn khi truy cập các phương thức như vậy và người dùng gửi yêu cầu trên danh sách gửi thư và SO họ thường được thông báo về các vấn đề liên quan đến phương pháp lựa chọn lạc hậu (hoặc chuyển tiếp).


1
Tôi biết rằng tôi nên - tôi sẽ đánh giá rất cao một số gợi ý về việc bắt đầu từ đâu.
Guy Adini

xn+1=1000x1xn+11000x1

Xin vui lòng xem ý kiến ​​của tôi ở trên (sử dụng các tính năng chuẩn hóa). Cảm ơn.
Guy Adini

Cảm ơn bạn. Tôi sẽ nhìn vào đó. Bạn có thể kể tên một vài thuật toán phổ biến được sử dụng trong "kiểm tra các tương tác và cấu trúc phi tuyến tính trong không gian dự đoán" này không, hay đó là một tình huống rất tình huống?
Guy Adini

Bạn có thể sử dụng các spline hồi quy để tìm kiếm các thuật ngữ phi tuyến tính và spline có thể được "gạch chéo", cho phép xác định các hiệu ứng được giới hạn trong một vùng của không gian dự đoán 2D. Bạn cũng có thể sử dụng các phương pháp hồi quy cục bộ. Trong R, phương pháp hồi quy cục bộ được sử dụng nhiều nhất có lẽ là gói 'mgcv', nhưng gói 'locfit' cũ hơn vẫn có sẵn.
DWin

-4

Tiếng Anh không phải là ngôn ngữ mẹ đẻ của tôi nên tôi có thể không hiểu vấn đề của bạn là gì, nhưng nếu bạn cần tìm mô hình tốt nhất, bạn có thể thử sử dụng quy trình ngược (và cuối cùng là thêm các tương tác), bắt đầu với một mô hình với tất cả các đồng biến. Sau đó, bạn có thể xem xét cả các giá trị còn lại và các biểu đồ qq-lô để kiểm tra xem mô hình có mô tả tốt hiện tượng của bạn không


Cảm ơn! Tôi nghĩ rằng những gì bạn đang đề xuất là tăng dần tính năng tương quan nhất. Điều này có ý nghĩa, nhưng không giúp tôi hiểu tính năng "bao nhiêu" A quan trọng hơn tính năng B. Ví dụ: giả sử rằng tôi có một tính năng x và một tính năng khác x + <tiếng ồn nhỏ>. Sau đó, cả hai đều là các tính năng thực sự hữu ích, nhưng cái này bị cái kia che mờ. Tôi muốn một phương thức cũng sẽ hiển thị x + <noise> là quan trọng.
Guy Adini

Không, một quy trình lùi bắt đầu với một mô hình với tất cả các đồng biến và sau đó loại bỏ một hiệp phương sai (có hệ số không đáng kể) từng bước (cho đến khi bạn có một mô hình chỉ có các hệ số có ý nghĩa). Tôi đoán có nhiều cách tinh vi hơn để đạt được cùng một mục tiêu, nhưng tôi chỉ là một sinh viên cử nhân!
Davide
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.