Hồi quy với nhiều biến phụ thuộc?


61

Có thể có một phương trình hồi quy (nhiều) với hai hoặc nhiều biến phụ thuộc không? Chắc chắn, bạn có thể chạy hai phương trình hồi quy riêng biệt, một phương trình cho mỗi DV, nhưng điều đó dường như không thể nắm bắt được bất kỳ mối quan hệ nào giữa hai DV?


Như trong SUR hay 3SLS?
Một ông già ở biển.

Câu trả lời:


35

Vâng, nó là có thể. Những gì bạn quan tâm được gọi là "Hồi quy đa biến" hoặc chỉ là "Hồi quy đa biến". Tôi không biết bạn đang sử dụng phần mềm nào, nhưng bạn có thể làm điều này trong R.

Đây là một liên kết cung cấp các ví dụ.

http://www.public.iastate.edu/~maitra/stat501/lectures/MultivariateRegression.pdf


2
Người ta có thể thêm rằng phù hợp với hồi quy separateley thực sự tương đương với công thức đa biến với một ma trận các biến phụ thuộc. Trong R với gói mvtnorm được cài đặt (1st: model đa biến, 2nd: các mô hình univariate riêng biệt): library (mvtnorm); X <- rmvnorm (100, c (1, 2), ma trận (c (4, 2, 2, 3), ncol = 2)); Ma trận Y <- X% *% (1: 4, ncol = 2) + rmvnorm (100, c (0, 0), diag (c (20, 30))); lm (Y ~ X [, 1] + X [, 2]); lm (Y [, 1] ~ X [, 1] + X [, 2]); lm (Y [, 2] ~ X [, 1] + X [, 2])
caracal

3
Nếu nó tương đương, mục đích là gì?
Joshua Rosenberg

1
@JoshuaRosenberg một lý do để chạy hồi quy đa biến đối với các hồi quy riêng biệt với các biến phụ thuộc duy nhất là khả năng tiến hành kiểm tra các hệ số qua các biến kết quả khác nhau. Ví dụ: bạn có thể thực hiện kiểm tra F để xem liệu một yếu tố dự đoán có ảnh hưởng tương tự đến một biến kết quả như đối với biến kết quả khác hay không.
AlexK

10

@ Phản hồi của Brett là tốt.

Nếu bạn quan tâm đến việc mô tả cấu trúc hai khối của mình, bạn cũng có thể sử dụng hồi quy PLS . Về cơ bản, nó là một khung hồi quy dựa trên ý tưởng xây dựng các tổ hợp tuyến tính (trực giao) liên tiếp của các biến thuộc mỗi khối sao cho hiệp phương sai của chúng là tối đa. Ở đây chúng tôi xem xét rằng một khối chứa các biến giải thích và các khối trả lời các biến, như được hiển thị bên dưới:XY

văn bản thay thế

Chúng tôi tìm kiếm "các biến tiềm ẩn", những người chiếm tối đa thông tin (theo kiểu tuyến tính) được bao gồm trong khối trong khi cho phép dự đoán khối với sai số tối thiểu. Các và là tải trọng (ví dụ, kết hợp tuyến tính) liên quan đến mỗi chiều. Các tiêu chí tối ưu hóa đọcXYujvj

maxuh∣=1,vh∣=1cov(Xh1uh,Yvh)(maxcov(ξh,ωh))

Trong đó là viết tắt của khối xì hơi (nghĩa là dư) , sau hồi quy .Xh1Xhth

Mối tương quan giữa điểm số giai thừa trên thứ nguyên đầu tiên ( và ) phản ánh mức độ quan trọng của liên kết -ξ1ω1XY


Tôi nghĩ rằng một PLS nhiềuX về cơ bản thực hiện nhiều PLS "nhiều lần". Vì vậy, mối quan hệ giữa các biến Y không được giải quyết.
lanselibai

4

Hồi quy đa biến được thực hiện trong SPSS bằng cách sử dụng tùy chọn đa biến GLM.

Đặt tất cả các kết quả của bạn (DV) vào hộp kết quả, nhưng tất cả các dự đoán liên tục của bạn vào hộp đồng biến. Bạn không cần bất cứ thứ gì trong hộp yếu tố. Nhìn vào các bài kiểm tra đa biến. Các thử nghiệm đơn biến sẽ giống như nhiều hồi quy riêng biệt.

Như một người khác đã nói, bạn cũng có thể chỉ định đây là mô hình phương trình cấu trúc, nhưng các bài kiểm tra là như nhau.

. )


2
một bổ sung tại @Jeremy
Epaminondas

2

Tôi sẽ làm điều này bằng cách trước tiên chuyển đổi các biến hồi quy thành các biến được tính toán PCA, và sau đó tôi sẽ chuyển sang hồi quy với các biến được tính toán PCA. Tất nhiên tôi sẽ lưu trữ các hàm riêng để có thể tính toán các giá trị pca tương ứng khi tôi có một phiên bản mới mà tôi muốn phân loại.


2
Điều này có vẻ khác về khái niệm so với câu trả lời ở trên. Tôi vẫn chưa rõ làm thế nào để chuyển đổi các biến của mình thành các hệ số PCA cho phép tôi hồi quy trên 2 biến phụ thuộc?
Jeff

@Jeff câu trả lời này thực sự tương tự về mặt khái niệm với hồi quy đa biến. Ở đây, gợi ý là thực hiện hai bước rời rạc theo trình tự (nghĩa là tìm các biến tổng hợp tuyến tính có trọng số sau đó hồi quy chúng); hồi quy đa biến thực hiện đồng thời hai bước . Hồi quy đa biến sẽ mạnh hơn, vì WLCV được hình thành để tối đa hóa hồi quy. Tuy nhiên, quy trình hai bước có thể cung cấp rõ ràng hơn về quy trình, hoặc nếu không thì thích hợp hơn cho nhà nghiên cứu.
gung - Tái lập Monica

1
@gung Hmm điều này có ý nghĩa với tôi nếu bạn thực hiện PCA trên các biến phụ thuộc và sau đó chỉ hồi quy thành phần chính đầu tiên ... Nhưng sau đó bạn vẫn đang đưa ra rất nhiều phương sai.
Jeff

1
@Jeff, các PC là trực giao. Bạn có thể chạy hồi quy độc lập trên mỗi. Tuy nhiên, điều này ít mạnh hơn vì sự phân rã không hoàn toàn giống nhau và thử nghiệm hồi quy đa biến không thực sự là một loạt các reg trên PC.
gung - Phục hồi Monica

@gung có, bạn có thể chạy N hồi quy độc lập, nhưng sau đó bạn kết thúc với N bộ hệ số beta. tôi không hiểu làm thế nào mà giải quyết vấn đề?
Jeff

1

Như được đề cập bởi caracal, bạn có thể sử dụng gói mvtnorm trong R. Giả sử bạn đã tạo một mô hình lm (được đặt tên là "mô hình") của một trong các phản hồi trong mô hình của bạn và gọi đó là "mô hình", đây là cách để có được phân phối dự báo đa biến của một số phản hồi "resp1", "resp2", "resp3" được lưu trữ dưới dạng ma trận Y:

library(mvtnorm)
model = lm(resp1~1+x+x1+x2,datas) #this is only a fake model to get
                                  #the X matrix out of it
Y = as.matrix(datas[,c("resp1","resp2","resp3")])
X =  model.matrix(delete.response(terms(model)), 
           data, model$contrasts)
XprimeX  = t(X) %*% X
XprimeXinv = solve(xprimex)
hatB =  xprimexinv %*% t(X) %*% Y
A = t(Y - X%*%hatB)%*% (Y-X%*%hatB)
F = ncol(X)
M = ncol(Y)
N = nrow(Y)
nu= N-(M+F)+1 #nu must be positive
C_1 =  c(1  + x0 %*% xprimexinv %*% t(x0)) #for a prediction of the factor setting x0 (a vector of size F=ncol(X))
varY = A/(nu) 
postmean = x0 %*% hatB
nsim = 2000
ysim = rmvt(n=nsim,delta=postmux0,C_1*varY,df=nu) 

Bây giờ, số lượng của fax là khoảng dung sai cho phép beta từ phân phối dự đoán, tất nhiên bạn có thể sử dụng trực tiếp phân phối được lấy mẫu để làm bất cứ điều gì bạn muốn.

Để trả lời Andrew F., mức độ tự do do đó nu = N- (M + F) +1 ... N là # của các quan sát, M là # của các phản hồi và F là # của các tham số trên mô hình phương trình. nu phải tích cực.

(Bạn có thể muốn đọc tác phẩm của tôi trong tài liệu này :-))


0

Bạn đã bắt gặp thuật ngữ "tương quan kinh điển" chưa? Ở đó bạn có các bộ biến về phía độc lập cũng như phía phụ thuộc. Nhưng có lẽ có nhiều khái niệm hiện đại hơn, những mô tả mà tôi có là tất cả những năm tám mươi / chín mươi ...


1
Tương quan Canonical là mối tương quan giữa các điểm yếu tố được tính toán từ các cấu trúc hai khối, như với CCA hoặc PLS. Đây chính xác là những gì tôi đã mô tả trong phản hồi của mình (hồi quy PLS), mặc dù PLS phù hợp hơn CCA khi các biến đóng vai trò không đối xứng, có khả năng là trường hợp ở đây. Điều này là do có quá trình giảm phát không đối xứng và thay vào đó chúng tôi làm việc với hiệp phương sai (với CCA, chúng tôi xì hơi cả hai khối cùng một lúc và chúng tôi tìm cách tối đa hóa mối tương quan, thay vì hiệp phương sai).
chl

@chl: upps- hôm nay (cuối tháng một) Tôi đã quay lại câu hỏi / cuộc trò chuyện này vào giữa tháng 11 .... Xin lỗi tôi đã không kiểm tra trước đó - có điều gì đó với các khóa học của tôi và sau đó tôi quên mất stat.exchange. .. Nếu tôi có thứ gì đó đáng giá tôi sẽ quay lại vào ngày hôm sau.
Gottfried Helms

-3

Nó được gọi là mô hình phương trình cấu trúc hoặc mô hình phương trình đồng thời.


3
Tôi có thể sai, nhưng tôi không nghĩ đây là điều tương tự. Từ các biểu đồ SEM mà tôi đã thấy, có vẻ như SEM sử dụng nhiều phương trình hồi quy để xác định các giá trị của các yếu tố tiềm ẩn và sau đó một hồi quy khác được chạy trên giá trị của các yếu tố tiềm ẩn đó để xác định hệ số bậc cao hơn. Có thể điều này là sai, nhưng tôi chưa bao giờ thấy một biểu đồ SEM liên kết một số IV với nhiều DV - mọi thứ đều có thứ bậc.
Jeff

Hình 8 trong bài viết này: biomedcentral.com/1471-2288/3/27 Bạn có thể làm điều đó, nhưng có rất ít điểm. Nó giống như MANOVA.
Jeremy Miles
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.