Lựa chọn giữa các biến đổi trong hồi quy logistic


8

Trong hồi quy tuyến tính, các phép biến đổi của các biến giải thích được thực hiện để có mối tương quan tối đa với biến phụ thuộc.

Biện pháp tốt nhất để lựa chọn giữa nhiều biến đổi trong hồi quy logistic là biến phụ thuộc là nhị phân và không liên tục?

Mục tiêu cuối cùng là tối đa hóa lực nâng (sức mạnh dự đoán) của mô hình.

Câu trả lời:


14

Tiêu chí tối ưu được sử dụng bởi hồi quy logistic (và nhiều phương pháp khác) là hàm khả năng. Nó được sử dụng để ước tính β bao gồm nhiều β đại diện cho một X để đạt được sự phù hợp đa thức bậc hai, khối và piecewise (spline). Nó cũng có thể được sử dụng để lựa chọn trong số các biến đổi cạnh tranh của X nhưng hành động chọn sẽ không được phản ánh trong ma trận thông tin, do đó, phương sai kết quả của Xβ^sẽ quá nhỏ, làm cho khoảng tin cậy không có xác suất bảo hiểm đã nêu. Nếu bạn thực hiện ước lượng chuyển đổi một mục tiêu rõ ràng của sự phù hợp mô hình (và các phép hồi quy hồi quy là những cách tuyệt vời để làm điều này), bạn sẽ bảo toàn tất cả các khía cạnh của suy luận thống kê. Tùy thuộc vào kích thước mẫu, một spline hình khối bị hạn chế (tuyến tính ở cả hai đuôi) với 4 nút thắt, yêu cầu 3 tham số, có thể là một lựa chọn tốt.


Cảm ơn vì sự trả lời. Sau đây là những mối quan tâm của tôi: 1) Một phép biến đổi được chọn một cách đơn nhất sẽ giống nhau nếu tôi chọn một phép biến đổi đa biến? Đối với tôi không có lý do gì để tin rằng sự lựa chọn đơn phương sẽ là kết hợp tốt nhất với các biến được chuyển đổi khác. 2) Tôi không thích sử dụng spline vì khả năng phù hợp quá mức và hiệu suất kém trong các bộ xác nhận. Tôi đã nghĩ đến việc sử dụng phép biến đổi Box-Cox cho các biến giải thích và tìm ra phép biến đổi tốt nhất với giá trị tối ưu là . Điều này có nghĩa không? Có suy nghĩ gì không? λ
Jatin

Không, điều đó không gây được tiếng vang. Box-Cox được sử dụng cho đơn biến liên tục và nhiều người dùng Box-Cox không biết xử phạt vì sự không chắc chắn trong cũng như Box-Cox đưa ra giả định mạnh mẽ về nguồn gốc đo lường (không). Splines không quá phù hợp hơn là có quá nhiều yếu tố dự đoán và bạn có thể kiểm soát lượng khớp với số lượng nút thắt và độ co rút (hình phạt; xem hàm R để xử phạt bậc hai). Như bạn đã nói, tốt nhất là ước tính các phép biến đổi theo cách điều chỉnh thay vì theo kiểu đơn biến. \ lambaY\lambarms lrm
Frank Harrell

6
  1. Không, trong các mô hình tuyến tính, việc chuyển đổi không (hoặc không nên) được thực hiện để có mối tương quan tối đa với biến phụ thuộc. Nó nên được thực hiện để a) Đáp ứng các giả định mô hình về phần dư hoặc b) Có một biến giải thích hợp lý hơn; đó là, một trong đó có ý nghĩa, thực chất. Như @Andy chỉ ra, điều này có thể không đủ. Nhưng, trong trường hợp đó, sau đó tôi sẽ tìm một phương pháp hồi quy thay thế (xem bên dưới) thay vì thực hiện một số chuyển đổi kỳ lạ. Ví dụ: một mô hình như sẽ là một mớ hỗn độn để giải thích.Y=b0+b1x1.21+b2x2.73

  2. Trong hồi quy logistic (ít nhất, trong logistic nhị phân) có ít giả định hơn (và không có gì về phần dư, theo như tôi biết), vì vậy chỉ áp dụng b).

Ngay cả đối với các mô hình tuyến tính, tôi vẫn thích sử dụng b). Và sau đó, nếu các giả định không được đáp ứng, sử dụng một số hình thức hồi quy khác (có thể là hồi quy mạnh, có thể là mô hình spline, có thể là đa thức).


Tuyên bố have a more sensible explanatory variablenày khá mơ hồ và nên được mở rộng theo. Tôi thường lấy nó để có nghĩa là một phép biến đổi cho phép giải thích dễ dàng hơn các hệ số hồi quy, nhưng điều đó rõ ràng là không đủ và tự nó (đối với hồi quy OLS hoặc Logistic).
Andy W

Như tôi đã nói trong bài viết của tôi, sức mạnh dự đoán là mối quan tâm chính. Có các biến giải thích hợp lý là mong muốn nhưng không phải là một ưu tiên. Do đó, nếu mang lại cho tôi lực nâng tốt hơn thì có thể chấp nhận được ở giai đoạn này. Câu hỏi là làm thế nào để chọn bộ biến đổi tốt nhất để nâng tối đa. Y=b0+b1x1.21+b2x2.73
Jatin

3

Với mô hình tuyến tính tổng quát, biện pháp toán học được tối thiểu hóa được gọi là "độ lệch" (-2 * khả năng đăng nhập). Có một số loại dư có thể được phát triển. "Phần dư sai lệch" là các thuật ngữ riêng lẻ trong một biểu thức phức tạp khiêm tốn. Tôi nghĩ đây là những điều dễ hiểu nhất khi áp dụng cho các biến phân loại. Đối với một biến phân loại sử dụng hồi quy logistic, đây chỉ là sự khác biệt giữa tỷ lệ cược log (mô hình) và tỷ lệ cược log (dữ liệu), nhưng đối với các biến liên tục thì chúng có phần phức tạp hơn. Dư lượng sai lệch là những gì được giảm thiểu trong quá trình lặp lại. Xem mô tả này tại trang web UCLA để biết một số lô tốt đẹp còn sót lại.

Theo tôi, phân tích về "thang máy" được thực hiện theo thang độ xác suất, thay vì theo tỷ lệ tỷ lệ cược hoặc tỷ lệ cược hoặc khả năng. Tôi thấy rằng Frank Harrell đã đưa ra một số lời khuyên và bất kỳ tranh chấp nhận thức nào giữa Frank và tôi nên được giải quyết bằng cách cân nhắc lớn về ý kiến ​​của Frank. (Lời khuyên của tôi sẽ là mua cuốn sách RMS của Frank.) Tôi ngạc nhiên khi anh ấy không đưa ra lời khuyên để xem xét các phương pháp bị phạt và rằng anh ấy đã không đưa ra một cảnh báo chống lại sự phù hợp quá mức. Tôi nghĩ rằng việc chọn một phép biến đổi chỉ đơn giản là vì nó tối đa hóa "lực nâng" sẽ giống với việc chọn các mô hình tối đa hóa "độ chính xác". Tôi biết anh ấy không tán thành chiến lược đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.