So sánh các hệ số logistic trên các mô hình với các biến phụ thuộc khác nhau?


14

Đây là một câu hỏi tiếp theo từ câu hỏi tôi đã hỏi vài ngày trước . Tôi cảm thấy nó đặt một vấn đề khác về vấn đề này, vì vậy liệt kê một câu hỏi mới.

Câu hỏi là: tôi có thể so sánh độ lớn của các hệ số giữa các mô hình với các biến phụ thuộc khác nhau không? Ví dụ, trên một mẫu duy nhất nói rằng tôi muốn biết liệu nền kinh tế là một công cụ dự đoán mạnh mẽ hơn về số phiếu trong Hạ viện hay cho Tổng thống. Trong trường hợp này, hai biến phụ thuộc của tôi sẽ là phiếu bầu trong Hạ viện (mã hóa 1 cho Dân chủ và 0 cho Đảng Cộng hòa) và bỏ phiếu cho Tổng thống (1 cho Dân chủ và 0 cho Đảng Cộng hòa) và biến độc lập của tôi là nền kinh tế. Tôi mong đợi một kết quả có ý nghĩa thống kê ở cả hai văn phòng, nhưng làm cách nào để đánh giá liệu nó có ảnh hưởng 'lớn hơn' so với cái kia không? Đây có thể không phải là một ví dụ đặc biệt thú vị, nhưng tôi tò mò về việc liệu có cách nào để so sánh hay không. Tôi biết người ta không thể chỉ nhìn vào 'kích thước' của hệ số. Vì thế, việc so sánh các hệ số trên các mô hình với các biến phụ thuộc khác nhau có thể không? Và, nếu vậy, làm thế nào nó có thể được thực hiện?

Nếu bất kỳ điều này không có ý nghĩa, hãy cho tôi biết. Tất cả các lời khuyên và ý kiến ​​được đánh giá cao.


2
Làm thế nào để bạn biết người ta không thể chỉ nhìn vào 'kích thước' của hệ số?
vào

Tôi đã hợp nhất hai tài khoản của bạn. Bạn vẫn sẽ cần phải đăng ký, như được nêu trong Câu hỏi thường gặp . (@onestop Thx vì đã chỉ ra bản sao.)
chl

Tôi giả định rằng tôi không thể so sánh 'hiệu ứng' của các yếu tố dự đoán trên các mô hình bằng cách xem xét các hệ số từ các câu trả lời cho câu hỏi trước đây của tôi. Có những điều khác nhau cho ví dụ của tôi ở trên?
Bắt đầu

2
Bắt đầu một tiền thưởng - có vẻ như là một câu hỏi quan trọng với ba câu trả lời rất khác nhau, không có câu trả lời nào có một phiếu bầu duy nhất . Chúng ta có thể làm tốt hơn. Liên kết giấy của Andy W về câu hỏi liên quan này có vẻ thích hợp.
Matt Parker

Câu trả lời:


4

Câu trả lời ngắn gọn là "có, bạn có thể" - nhưng bạn nên so sánh Ước tính khả năng tối đa (MLE) của "mô hình lớn" với tất cả các biến thể trong cả hai mô hình được trang bị cho cả hai.

Đây là một cách "gần như chính thức" để có được lý thuyết xác suất để trả lời câu hỏi của bạn

Trong ví dụ, Y 2 là cùng một loại biến (phân số / tỷ lệ phần trăm) để chúng có thể so sánh được. Tôi sẽ giả định rằng bạn phù hợp với cùng một mô hình cho cả hai. Vì vậy, chúng tôi có hai mô hình:Y1Y2

l o g ( p 1 i

M1:Y1iBin(n1i,p1i)
M2:Y2iBin(n2i,p2i)log(p 2 i
log(p1i1p1i)=α1+β1Xi
M2:Y2iBin(n2i,p2i)
log(p2i1p2i)=α2+β2Xi

Vì vậy, bạn có giả thuyết bạn muốn đánh giá:

H0:β1>β2

{Y1i,Y2i,Xi}i=1n

P=Pr(H0|{Y1i,Y2i,Xi}i=1n,I)

H0

P=Pr(H0,α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

The hypothesis simply restricts the range of integration, so we have:

P=β2Pr(α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

Because the probability is conditional on the data, it will factor into the two separate posteriors for each model

Pr(α1,β1|{Y1i,Xi,Y2i}i=1n,I)Pr(α2,β2|{Y2i,Xi,Y1i}i=1n,I)

Now because there is no direct links between Y1i and α2,β2, only indirect links through Xi, which is known, it will drop out of the conditioning in the second posterior. same for Y2i in the first posterior.

From standard logistic regression theory, and assuming uniform prior probabilities, the posterior for the parameters is approximately bi-variate normal with mean equal to the MLEs, and variance equal to the information matrix, denoted by V1 and V2 - which do not depend on the parameters, only the MLEs. so you have straight-forward normal integrals with known variance matrix. αj marginalises out with no contribution (as would any other "common variable") and we are left with the usual result (I can post the details of the derivation if you want, but its pretty "standard" stuff):

P=Φ(β^2,MLEβ^1,MLEV1:β,β+V2:β,β)

Where Φ() is just the standard normal CDF. This is the usual comparison of normal means test. But note that this approach requires the use of the same set of regression variables in each. In the multivariate case with many predictors, if you have different regression variables, the integrals will become effectively equal to the above test, but from the MLEs of the two betas from the "big model" which includes all covariates from both models.


3

Why not? The models are estimating how much 1 unit of change in any model predictor will influence the probability of "1" for the outcome variable. I'll assume the models are the same-- that they have the same predictors in them. The most informative way to compare the relative magnitudes of any given predictor in the 2 models is to use the models to calculate (either deterministically or better by simulation) how much some meaningful increment of change (e.g., +/- 1 SD) in the predictor affects the probabilities of the respective outcome variables--& compare them! You'll want to determine confidence intervals for the two estimates as well as so you can satisfy yourself that the difference is "significant," practically & statistically.


Thanks dmk8, very useful. Some follow-up points/questions: is this what is often meant when referring to varying the variable of interest (the economy from bad to good for example) while holding all control variables at their means? What do you mean by deterministically? How do I determine the confidence intervals around the probabilities?
Ejs

2
Consult the King. He will not disappoint. King, G., Tomz, M., & Wittenberg., J. (2000). Making the Most of Statistical Analyses: Improving Interpretation and Presentation. Am. J. Pol. Sci, 44(2), 347-361.
dmk38

2

I assume that by "my independent variable is the economy" you're using shorthand for some specific predictor.

At one level, I see nothing wrong with making a statement such as

X predicts Y1 with an odds ratio of _ and a 95% confidence interval of [ _ , _ ] while X predicts Y2 with an odds ratio of _ and a 95% confidence interval of [ _ , _ ].

@dmk38's recent suggestions look very helpful in this regard.

You might also want to standardize the coefficients to facilitate comparison.

At another level, beware of taking inferential statistics (standard errors, p-values, CIs) literally when your sample constitutes a nonrandom sample of the population of years to which you might want to generalize.


Yes, 'the economy' is shorthand for perceptions of national economic conditions. Does the same advice apply when other predictors (controls) are included in the model?
Ejs

@Ejs - I'm afraid there's no short answer to your last question. You're getting into what it means to assess relationships when using statistical control - a fabulously intricate topic worthy of extensive study. You're also probably getting into the topic of variable selection, which is a big one as well. Imho the best source for the committed student of these topics is Pedhazur's amazon.com/Multiple-regression-behavioral-research-Pedhazur/…
rolando2

1

Let us say the interest lies in comparing two groups of people: those with X1=1 and those with X1=0.

The exponential of β1, the corresponding coefficient, is interpreted as the ratio of the odds of success for those with X1=1 over the odds of success for those with X1=0, conditional on the other variables in the model.

So, if you have two models with different dependend variables then the interpretation of β1 changes since it is not conditioned upon the same set of variables. As a consequence, the comparison is not direct...


Does this have any implications for roland2's suggestion?
Ejs

@Ejs. Do you refer to the standardisation step? By the way, does my answer help ? Have I misunderstood the question ?
ocram
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.