Hồi quy Hồi quy Hồi quy Dư lượng trên các Regressors khác


9

Với hồi quy OLS được áp dụng cho đáp ứng liên tục, người ta có thể xây dựng phương trình hồi quy bội bằng cách hồi quy chạy tuần tự các phần dư trên mỗi hiệp phương sai. Câu hỏi của tôi là, có cách nào để làm điều này với hồi quy logistic thông qua phần dư hồi quy logistic không?

Đó là, nếu tôi muốn ước tính bằng cách sử dụng phương pháp mô hình tuyến tính tổng quát hóa tiêu chuẩn, có cách nào để chạy hồi quy logistic chống lại và lấy Rse giả dư R_1 , sau đó hồi quy R_1 trên z để có được một ước lượng không thiên vị của các hệ số hồi quy logistic. Tài liệu tham khảo cho sách giáo khoa hoặc văn học sẽ được đánh giá cao.Pr(Y=1|x,z)xR1R1z


Tôi đoán là điều này sẽ không hoạt động vì cùng một lý do mà REML không mở rộng sang GLM; ma thuật của hình vuông nhỏ nhất bị mất. Tôi tự hỏi nếu nó sẽ hoạt động trong một bối cảnh hoàn toàn bay bổng, nơi bạn đã lấy mẫu biến tiềm ẩn như một phần của sim. Lý do tôi muốn làm điều này là vì tôi có thể chạy glmnet trên các lớp biến khác nhau và nhận được số lượng chính quy khác nhau cho các lớp - tất nhiên có nhiều cách khác để có được hiệu ứng này.
Ben Ogorek

Điều này có giống với việc sử dụng thuật toán lắp lại cho hồi quy logistic không?
usεr11852

Tôi đã đề cập điều này trong một bình luận bên dưới, nhưng trong nhiều lần triển khai, bạn có thể vượt qua dự đoán 'cơ sở' (tham số bù trong glmnet), vì vậy có lẽ điều này sẽ có thể xảy ra sau khi hồi quy các lọ phụ thuộc. @BenOgorek bạn có muốn thêm mục đích trong văn bản chính
seanv507

@ seanv507 Tôi lo lắng rằng việc thêm vào phần chính quy sẽ làm tăng phạm vi quá nhiều, đặc biệt là bây giờ có một số câu trả lời hay dưới đây. Sau phần hỏi đáp này, tôi sẽ tạo một câu hỏi riêng trong đó phần bù thực sự có thể là bạn của chúng tôi.
Ben Ogorek

Đây không phải là một câu trả lời nhưng tôi không có đủ danh tiếng để bình luận. Câu hỏi là về việc hồi quy phần dư trên các biến hồi quy khác (nghĩa là các yếu tố dự đoán ) thay vì hồi quy dư trên các phần dư . Tôi bối rối trước câu trả lời.
T Wu

Câu trả lời:


3

Trong hồi quy tuyến tính đa tiêu chuẩn, khả năng phù hợp với ước lượng bình phương nhỏ nhất (OLS) trong hai bước xuất phát từ định lý Frisch mật Waugh tựa Lovell . Định lý này cho thấy ước tính của một hệ số cho một yếu tố dự báo cụ thể trong mô hình đa tuyến tính bằng với ước tính thu được bằng cách hồi quy các phần dư đáp ứng (phần dư từ hồi quy của biến trả lời so với các biến giải thích khác) so với phần dư dự báo (phần dư từ một hồi quy của biến dự đoán so với các biến giải thích khác). Rõ ràng, bạn đang tìm kiếm một sự tương tự với định lý này có thể được sử dụng trong mô hình hồi quy logistic.

Đối với câu hỏi này, rất hữu ích khi nhớ lại đặc tính biến tiềm ẩn của hồi quy logistic :

YTôi= =Tôi(YTôi*>0)YTôi*= =β0+βXxTôi+βZzTôi+εTôiεTôi~IID Logistic(0,1).

Trong đặc tính này của mô hình, biến phản hồi tiềm ẩn là không quan sát được, và thay vào đó chúng ta quan sát chỉ báo cho chúng ta biết phản ứng tiềm ẩn có dương hay không. Dạng mô hình này trông tương tự như hồi quy tuyến tính đa biến, ngoại trừ việc chúng tôi sử dụng phân phối lỗi hơi khác (phân phối logistic thay vì phân phối bình thường) và quan trọng hơn, chúng tôi chỉ quan sát một chỉ báo cho biết phản ứng tiềm ẩn có dương hay không .YTôi*YTôi

Điều này tạo ra một vấn đề cho bất kỳ nỗ lực nào để tạo ra sự phù hợp hai bước của mô hình. Định lý Frisch-Waugh-Lovell này dựa trên khả năng thu được phần dư trung gian cho phản ứng và dự đoán lợi ích, được thực hiện đối với các biến giải thích khác. Trong trường hợp hiện tại, chúng tôi chỉ có thể thu được phần dư từ biến phản ứng "được phân loại". Tạo một quy trình phù hợp hai bước cho hồi quy logistic sẽ yêu cầu bạn sử dụng phần dư phản hồi từ biến trả lời được phân loại này, mà không truy cập vào phản hồi tiềm ẩn bên dưới. Điều này đối với tôi giống như một trở ngại lớn, và trong khi nó không chứng minh được sự bất khả thi, thì dường như không thể phù hợp với mô hình trong hai bước.

Dưới đây tôi sẽ cung cấp cho bạn một tài khoản về những gì sẽ được yêu cầu để tìm một quy trình hai bước để phù hợp với hồi quy logistic. Tôi không chắc có giải pháp nào cho vấn đề này không, hoặc nếu có bằng chứng về sự bất khả thi, nhưng tài liệu ở đây sẽ giúp bạn hiểu được những gì cần thiết.


Một hồi quy logistic hai bước sẽ phù hợp như thế nào? Giả sử chúng ta muốn xây dựng một bước phù hợp hai bước cho mô hình hồi quy logistic trong đó các tham số được ước tính thông qua ước tính khả năng tối đa ở mỗi bước. Chúng tôi muốn quá trình liên quan đến một bước trung gian phù hợp với hai mô hình sau:

YTôi= =Tôi(YTôi**>0)YTôi**= =α0+αXxTôi+τTôiτTôi~IID Logistic(0,1),  ZTôi= =γ0+γXxTôi+δTôiδTôi~IID g.

Chúng tôi ước tính các hệ số của các mô hình này (thông qua MLE) và điều này mang lại các giá trị được trang bị trung gian . Sau đó, trong bước thứ hai, chúng tôi phù hợp với mô hình:α^0,α^X,γ^0,γ^X

YTôi= =hậu cần(α^0+α^1xTôi)+βZ(zTôi-γ^0-γ^XxTôi)+εTôiεTôi~IID f.

Như đã chỉ định, quy trình có rất nhiều phần tử cố định, nhưng các hàm mật độ và trong các bước này không được chỉ định (mặc dù chúng phải là các phân phối có nghĩa là không phụ thuộc vào dữ liệu). Để có được phương pháp khớp hai bước theo các ràng buộc này, chúng ta cần chọn và để đảm bảo rằng MLE cho trong thuật toán phù hợp mô hình hai bước này giống như MLE thu được từ mô hình hồi quy logistic một bước ở trên.gfgfβZ

Để xem điều này có khả thi hay không, trước tiên chúng ta viết tất cả các tham số ước tính từ bước đầu tiên:

y|x(α^0,α^X)=maxα0,αXi=1nlnBern(yi|logistic(α0+αXxi)),z|x(γ^0,γ^X)=maxγ0,γXi=1nlng(ziγ0γXxi).

Hãy để sao cho hàm khả năng đăng nhập cho bước thứ hai là:ϵi=yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)

y|z|x(βZ)=i=1nlnf(yilogistic(α^0α^1xi)+βZ(ziγ^0γ^Xxi)).

Chúng tôi yêu cầu giá trị tối đa của hàm này là MLE của mô hình hồi quy logistic nhiều. Nói cách khác, chúng tôi yêu cầu:

arg max βXy|z|x(βZ)=arg max βXmaxβ0,βZi=1nlnBern(yi|logistic(β0+βXxi+βZzi)).

Tôi để nó cho người khác xác định xem có giải pháp nào cho vấn đề này không, hoặc bằng chứng không có giải pháp. Tôi nghi ngờ rằng việc "phân loại" biến phản ứng tiềm ẩn trong hồi quy logistic sẽ khiến không thể tìm thấy quy trình hai bước.


1
Xin chào @Ben, cảm ơn vì đã dạy tôi về định lý Frisch của WaughTHER Lovell. Tôi đã thổi nó vào tiền thưởng - nghĩ rằng "hết hạn" có nghĩa là nó chỉ dừng lại ở quảng cáo. Xin lỗi vì điều đó. Tôi thích ý tưởng dựa trên khả năng của bạn. Có thể thử nó hoặc một cái gì đó tương tự và đăng dưới đây.
Ben Ogorek

@Ben Ogorek: Không phải lo lắng về tiền thưởng. Vui mừng câu trả lời đã giúp.
Ben - Tái lập Monica

@Ben Ogorek: (Để bù 25 điểm tiền thưởng bị mất, biến mất vào ether, chỉ cần đi xung quanh trang web và bỏ phiếu bất kỳ 3 câu trả lời. Sau đó, nghiệp của bạn được phục hồi!)
Ben - Tái lập lại

1
Làm xong! (Và tôi đã đọc chúng trước).
Ben Ogorek

3

Tôi có thể hiểu sai câu hỏi. Tôi nghi ngờ bạn có thể xây dựng phương trình hồi quy tuyến tính bằng cách hồi quy trên phần dư theo cách OP chỉ định . Phương pháp của OP sẽ chỉ hoạt động nếu các yếu tố dự đoán độc lập với nhau.

Để làm cho nó hoạt động, giả sử là vectơ kết quả, là ma trận mô hình cho các yếu tố dự đoán đã có trong mô hình và bạn muốn bao gồm . Bạn cần hồi quy phần dư của hồi quy của trên so với phần dư của hồi quy trên để có được hệ số OLS cho .yXx1yXx1Xx1

Đây là một ví dụ đơn giản:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

Mô hình phù hợp với OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446 

Hồi quy trên phần dư:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874 

Điều này là sai, bạn cần phải phù hợp:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01 

Trả về hệ số đúng cho x2, giá trị này phù hợp với sự khác biệt dự kiến ​​về y với các khác biệt trong x2, giữ x1 không đổi (lấy nó ra khỏi cả y và x1).

Ngoài ra, trong hồi quy logistic, nó thậm chí còn có vấn đề hơn bởi vì các hệ số hồi quy logistic bị sai lệch biến thiên ngay cả khi không có quan hệ bị nhiễu, xem ở đâyđây , vì vậy trừ khi tất cả các dự đoán về kết quả đều có trong mô hình, người ta không thể có được ước tính không thiên vị của các thông số dân số thực sự. Hơn nữa, tôi không biết bất kỳ phần dư nào từ mô hình có thể tuân theo hồi quy logistic thứ hai với tất cả các giá trị nằm trong khoảng từ 0 đến 1.

Một số tài liệu tham khảo về hồi quy trên phần dư:

  • Maxwell, SE, Delaney, HD, & Manheimer, JM (1985). Anova của Residuals và Ancova: Sửa lỗi ảo ảnh bằng cách sử dụng So sánh mô hình và đồ thị. Tạp chí Thống kê Giáo dục, 10 (3), 197 Từ209. Lấy từ http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
  • Freckleton, RP (2002), Về việc sử dụng sai các phần dư trong sinh thái học: hồi quy của phần dư so với hồi quy bội. Tạp chí sinh thái động vật, 71 , 542-545. doi: 10.1046 / j.1365-2656.2002.00618.x

Tôi nghĩ rằng một vài đoạn đầu tiên của bạn hơi sai lệch / không rõ ràng ... sẽ tốt hơn nếu bạn bắt đầu với cách bạn thực sự 'hồi quy tuyến tính với phần dư' .. (+ 1) và bạn có thể tìm thấy nó trong các yếu tố của học thống kê ( hồi quy bội từ phần hồi quy đơn?)
seanv507

Trong nhiều triển khai, bạn có thể vượt qua dự đoán 'cơ sở' (tham số bù trong glmnet), vì vậy có thể điều này có thể xảy ra sau khi hồi quy các vars phụ thuộc
seanv507

@ seanv507 Tôi đã bao gồm nó trong câu trả lời của tôi. Đây là bản trình diễn mã cuối cùng mà tôi có. Điều đó không thể xảy ra theo cách OP mô tả, hồi quy các phần dư trên một công cụ dự đoán. Nhưng tôi có thể viết lại nó để hiển thị cách phù hợp ngay từ đầu nếu đó là ý bạn.
Heteroskedastic Jim

Có, tôi có nghĩa là viết lại nó để hiển thị cách phù hợp ngay từ đầu,
seanv507

@ seanv507 không biết ý của bạn là gì khi bạn có thể vượt qua dự đoán cơ sở? Và hồi quy các biến phụ thuộc?
Heteroskedastic Jim

1

Tôi hy vọng tôi không hiểu sai câu hỏi của bạn, vì câu trả lời của tôi sẽ thay đổi phần nào cách diễn đạt của bạn về chủ đề của bạn.

Tôi nghĩ những gì bạn đang cố gắng làm là xây dựng mô hình hồi quy của mình bằng cách thêm một biến độc lập tại một thời điểm. Và, bạn làm điều đó bằng cách quan sát biến tiềm năng nào có tương quan cao nhất với phần dư của hồi quy đầu tiên của bạn giữa Y và X1. Vì vậy, biến có tương quan cao nhất với phần dư đầu tiên này sẽ là X2. Vì vậy, bây giờ bạn có một mô hình với hai biến độc lập X1 & X2. Và, bạn tiếp tục quá trình chính xác này để chọn X3, X4, v.v ... Đây là một quá trình chuyển tiếp từng bước.

Bạn có thể thực hiện chính xác điều tương tự với Hồi quy logistic vì lý do đơn giản là Hồi quy logistic gần như là Hồi quy OLS trong đó biến phụ thuộc là nhật ký của số lẻ (hoặc logit). Nhưng, liệu Y có phải là logit hay không không ảnh hưởng đến quá trình chuyển tiếp từng bước được đề cập ở trên.

OLS giảm thiểu tổng các lỗi vuông để phù hợp với dữ liệu thực tế. Hồi quy logit sử dụng quy trình khả năng tối đa tạo ra sự phù hợp không khác biệt nhiều so với OLS. Và, điều đó cũng vậy (cơ chế phù hợp) sẽ không ảnh hưởng đến quá trình chuyển tiếp từng bước cho phép bạn xây dựng mô hình hồi quy bội, cho dù sau này là Hồi quy OLS hay Hồi quy Logit.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.