Các yếu tố dự báo quan trọng trở nên không đáng kể trong hồi quy logistic


11

Khi tôi phân tích các biến của mình theo hai mô hình hồi quy logistic riêng biệt (đơn biến), tôi nhận được như sau:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

nhưng khi tôi nhập chúng vào một mô hình hồi quy logistic nhiều lần, tôi nhận được:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Cả hai dự đoán là phân đôi (phân loại). Tôi đã kiểm tra độ đa hình.

Tôi không chắc là mình đã cung cấp đủ thông tin hay chưa, nhưng tôi không thể hiểu tại sao dự đoán 1 lại chuyển từ không đáng kể sang không đáng kể và tại sao tỷ lệ chênh lệch rất khác nhau trong mô hình hồi quy bội. Bất cứ ai có thể cung cấp một lời giải thích cơ bản về những gì đang xảy ra?


2
đa biến thường chỉ ra nhiều biến phụ thuộc - ý bạn là nhiều yếu tố dự đoán, phải không? Điều đó thường được gọi là hồi quy bội.
Macro

1
Ngoài ra, là từ các mô hình hồi quy logistic khác nhau thường không thể so sánh. Điều này là do thang đo đã thay đổi - đây là một vấn đề tinh tế nhưng ý tưởng cơ bản là tổng phương sai (trên thang đo tiềm ẩn mà hồi quy logistic tự nhiên phát sinh - xem en.wikipedia.org/wiki/iêu ) không cố định trên các mô hình, vì vậy bạn không nên mong đợi các hệ số giống nhau trên các mô hình, mặc dù điều đó không nhất thiết giải thích sự thay đổi về ý nghĩa thống kê. Làm thế nào bạn kiểm tra sự phụ thuộc giữa hai yếu tố dự đoán? β
Macro

à, cảm ơn Tôi đã kiểm tra chẩn đoán cộng tuyến thông qua hồi quy tuyến tính trên spss & kiểm tra dung sai và VIF - điều này có đúng không?
Annie

Bình luận tốt đẹp @Macro. Tôi mơ hồ nhớ lại việc đọc về các cách khắc phục vấn đề này về quy mô, nhưng tôi không nhớ là ở đâu.
Peter Flom - Tái lập Monica

1
@PeterFlom, một điều bạn có thể làm là chia tỷ lệ các hệ số theo phương sai của các yếu tố dự đoán tuyến tính (cộng với , phương sai của phân phối logistic tiêu chuẩn) - điều này đặt chúng vào cùng một tỷ lệ. Tất nhiên, chúng không còn có thể hiểu là tỷ lệ cược một khi bạn làm điều này. π2/3
Macro

Câu trả lời:


20

Có một số lý do (không có lý do nào liên quan cụ thể đến hồi quy logistic, nhưng có thể xảy ra trong bất kỳ hồi quy nào).

  1. Mất mức độ tự do: khi cố gắng ước tính nhiều tham số hơn từ một tập dữ liệu nhất định, bạn thực sự hỏi nhiều hơn về nó, chi phí chính xác, do đó dẫn đến thống kê t thấp hơn, do đó giá trị p cao hơn.
  2. Tương quan của các Regressors: Các hồi quy của bạn có thể liên quan với nhau, đo lường hiệu quả một cái gì đó tương tự. Giả sử, mô hình logit của bạn là để giải thích tình trạng thị trường lao động (làm việc / không làm việc) như là một chức năng của kinh nghiệm và tuổi tác. Cá nhân, cả hai biến đều có liên quan tích cực đến tình trạng, vì nhiều kinh nghiệm / lớn tuổi hơn (loại bỏ nhân viên rất già vì lý lẽ) nhân viên thấy dễ tìm việc hơn so với sinh viên tốt nghiệp gần đây. Bây giờ, rõ ràng, hai biến có liên quan chặt chẽ với nhau, vì bạn cần phải già hơn để có nhiều kinh nghiệm hơn. Do đó, hai biến về cơ bản "cạnh tranh" để giải thích trạng thái, có thể, đặc biệt là trong các mẫu nhỏ, dẫn đến cả hai biến "mất", vì không có tác động nào có thể đủ mạnh và ước tính đủ chính xác khi kiểm soát cái kia để có được ước tính quan trọng. Về cơ bản, bạn đang hỏi: tác động tích cực của một năm kinh nghiệm khác khi giữ tuổi không đổi là gì? Có thể có rất ít hoặc không có nhân viên nào trong bộ dữ liệu của bạn trả lời câu hỏi đó, vì vậy hiệu quả sẽ được ước tính không chính xác, dẫn đến giá trị p lớn.

  3. Các mô hình sai chính tả: Lý thuyết cơ bản cho các thống kê t / giá trị p yêu cầu bạn ước tính một mô hình được chỉ định chính xác. Bây giờ, nếu bạn chỉ hồi quy trên một công cụ dự đoán, khả năng khá cao là mô hình đơn biến đó bị sai lệch biến thiên. Do đó, tất cả các cược được tắt như cách hành xử của giá trị p. Về cơ bản, bạn phải cẩn thận để tin tưởng họ khi mô hình của bạn không chính xác.


Cảm ơn bạn đã phản ứng kỹ lưỡng và nhanh chóng. Tôi sẽ cố gắng loại bỏ bất kỳ đa cộng đồng đầu tiên. Tôi đã chạy các mối tương quan giữa các biến và tìm thấy một số, và sẽ thử chạy các yếu tố lạm phát phương sai vì tôi nghe nói đó là một cách tốt để kiểm tra điều này. Nếu nó trở thành một vấn đề tự do, tôi có thể làm gì về điều đó không? Tôi có thể giải thích rằng điều này đang xảy ra, nhưng nó dường như làm tổn hại đến tính toàn vẹn của hồi quy nếu tầm quan trọng giảm quá nghiêm trọng.
Sam O'Brien

3
@ SamO'Brien: Lưu ý rằng nếu mục tiêu của bạn thực sự là những gì bạn đã nói - "hãy cố gắng xác định" biến độc lập nào có khả năng gây ra phản hồi "-, bỏ qua một số chỉ vì chúng có tương quan với những người khác để" loại bỏ bất kỳ đa cộng đồng nào " sẽ không giúp đạt được nó.
Scortchi - Tái lập Monica

1
Có thể có nó theo cách khác xung quanh tức là cùng một yếu tố dự đoán không có ý nghĩa trong hồi quy đơn giản nhưng có ý nghĩa trong hồi quy bội?
gkcn

8

Không có lý do cụ thể tại sao điều này không nên xảy ra. Hồi quy bội hỏi một câu hỏi khác với hồi quy đơn giản. Cụ thể, hồi quy bội (trong trường hợp này là hồi quy logistic nhiều) hỏi về mối quan hệ giữa các biến phụ thuộc và biến độc lập, kiểm soát các biến độc lập khác. Hồi quy đơn giản hỏi về mối quan hệ giữa một biến phụ thuộc và biến độc lập (đơn).

Nếu bạn thêm bối cảnh nghiên cứu của bạn (ví dụ: các biến này là gì?) Thì có thể đưa ra các phản hồi cụ thể hơn. Ngoài ra, do cả ba biến trong trường hợp của bạn là nhị phân, bạn có thể trình bày cho chúng tôi dữ liệu khá dễ dàng ... chỉ có 8 dòng cần thiết để tóm tắt điều này:

DVTôiV1TôiV2CobạnntMộtMộtMột10MộtMộtB20

Vân vân.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.