Làm thế nào để thực hiện phân tích dư cho các yếu tố dự đoán độc lập nhị phân / nhị phân trong hồi quy tuyến tính?


11

Tôi đang thực hiện nhiều hồi quy tuyến tính dưới đây trong R để dự đoán lợi nhuận của quỹ được quản lý.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Ở đây chỉ GRI & MBA là các yếu tố dự đoán nhị phân / nhị phân; các dự đoán còn lại là liên tục.

Tôi đang sử dụng mã này để tạo các ô dư cho các biến nhị phân.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Câu hỏi của tôi: Tôi biết cách kiểm tra các ô dư cho các dự đoán liên tục nhưng làm thế nào để bạn kiểm tra các giả định của hồi quy tuyến tính như homoscedasticity khi một biến độc lập là nhị phân?

Lô dư:

Lô dư cho GR1 Lô dư cho MBA

Câu trả lời:


8

@NickCox đã thực hiện một công việc tốt khi nói về màn hình của phần dư khi bạn có hai nhóm. Hãy để tôi giải quyết một số câu hỏi rõ ràng và các giả định ngầm ẩn đằng sau chủ đề này.

Câu hỏi đặt ra, "làm thế nào để bạn kiểm tra các giả định của hồi quy tuyến tính, chẳng hạn như homoscedasticity khi một biến độc lập là nhị phân?" Bạn có một mô hình hồi quy bội . Mô hình hồi quy (nhiều) giả định chỉ có một thuật ngữ lỗi, không đổi ở mọi nơi. Nó không có ý nghĩa khủng khiếp (và bạn không có) để kiểm tra tính không đồng nhất cho từng yếu tố dự đoán. Đây là lý do tại sao, khi chúng ta có một mô hình hồi quy bội, chúng ta chẩn đoán tính không đồng nhất từ ​​các lô của phần dư so với các giá trị dự đoán. Có lẽ âm mưu hữu ích nhất cho mục đích này là một biểu đồ vị trí tỷ lệ (còn được gọi là 'mức độ lây lan'), là một biểu đồ của căn bậc hai của giá trị tuyệt đối của phần dư so với các giá trị dự đoán. Để xem các ví dụ,"Phương sai không đổi" trong mô hình hồi quy tuyến tính có nghĩa là gì?

Tương tự như vậy, bạn không phải kiểm tra phần dư cho từng yếu tố dự đoán về tính quy tắc. (Thành thật tôi thậm chí không biết nó sẽ hoạt động như thế nào.)

Những gì bạn có thể làm với các lô dư so với các yếu tố dự đoán riêng lẻ là kiểm tra xem hình thức chức năng có được chỉ định đúng không. Ví dụ: nếu phần dư tạo thành một parabol, có một số độ cong trong dữ liệu mà bạn đã bỏ lỡ. Để xem ví dụ, hãy xem biểu đồ thứ hai trong câu trả lời của @ Glen_b tại đây: Kiểm tra chất lượng mô hình trong hồi quy tuyến tính . Tuy nhiên, những vấn đề này không áp dụng với công cụ dự đoán nhị phân.

Đối với những gì nó có giá trị, nếu bạn chỉ có các dự đoán phân loại, bạn có thể kiểm tra tính không đồng nhất. Bạn chỉ cần sử dụng thử nghiệm của Levene. Tôi thảo luận về nó ở đây: Tại sao thử nghiệm của Levene về sự bình đẳng của phương sai thay vì tỷ lệ F? Trong R bạn sử dụng ? LeveneTest từ gói xe hơi.


Chỉnh sửa: Để minh họa rõ hơn điểm nhìn vào một biểu đồ của phần dư so với một biến dự đoán riêng lẻ không giúp ích gì khi bạn có mô hình hồi quy bội, hãy xem xét ví dụ này:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Bạn có thể thấy từ quá trình tạo dữ liệu không có sự không đồng nhất. Chúng ta hãy kiểm tra các sơ đồ liên quan của mô hình để xem liệu chúng có ngụ ý tính không đồng nhất có vấn đề hay không:

nhập mô tả hình ảnh ở đây

Không, không có gì phải lo lắng. Tuy nhiên, chúng ta hãy xem xét biểu đồ của phần dư so với biến dự đoán nhị phân riêng lẻ để xem liệu có vẻ như có sự không đồng nhất ở đó không:

nhập mô tả hình ảnh ở đây

Uh oh, có vẻ như có thể có một vấn đề. Chúng tôi biết từ quá trình tạo dữ liệu rằng không có bất kỳ sự không đồng nhất nào và các âm mưu chính để khám phá điều này cũng không hiển thị gì cả, vậy điều gì đang xảy ra ở đây? Có thể những mảnh đất này sẽ giúp:

nhập mô tả hình ảnh ở đây

x1x2không độc lập với nhau. Hơn nữa, các quan sát ở đâu x2 = 1là cực đoan. Họ có nhiều đòn bẩy hơn, vì vậy phần dư của họ tự nhiên nhỏ hơn. Tuy nhiên, không có sự không đồng nhất.

Thông điệp mang về nhà: Đặt cược tốt nhất của bạn là chỉ chẩn đoán tính không đồng nhất từ ​​các lô thích hợp (phần dư so với âm mưu được trang bị và âm mưu mức độ lây lan).


Cảm ơn! Với cùng một hồi quy tôi đã làm, tôi thấy rằng Residual Vs Y là homoscedastic nhưng khi tôi kiểm tra Residual Vs tenure (độc lập) thì đó là hình phễu. Vì vậy, tôi cần phải thực hiện một số chuyển đổi để sửa lỗi này phải không? Sau đó, trong bối cảnh này chỉ muốn hiểu lý do tại sao bạn đề cập rằng kiểm tra biến độc lập Vs dư là không cần thiết?
GeorgeOfTheRF

@ mrcet007, không bạn không cần chuyển đổi. Nếu độ phân giải so với trang bị cho thấy không có độ không đồng nhất, bạn vẫn ổn. Có lẽ một minh họa sẽ giúp bạn. Tôi đã chỉnh sửa câu trả lời của mình để thêm phần trình diễn.
gung - Phục hồi Monica

Bạn có thể kiểm tra liên kết này people.duke.edu/~rnau/testing.htmlm . Nó nói kiểm tra dư Vs biến độc lập cũng. Chỉ chia sẻ cho các cuộc thảo luận vì lợi ích. Bạn có thể nhận xét về điều này? Những gì tôi đã nghĩ là chúng ta cần phải luôn luôn kiểm tra cả Vs dự đoán cũng như dư và độc lập. homoscedasticity (phương sai không đổi) của các lỗi (a) so với thời gian (trong trường hợp dữ liệu chuỗi thời gian) (b) so với dự đoán (c) so với bất kỳ biến độc lập nào
GeorgeOfTheRF

Nhận xét của tôi là tôi đã cung cấp cho bạn cả lý do tại sao bạn nhìn vào đồ thị dư so với dự đoán để kiểm tra độ không đồng nhất & cho bạn thấy một ví dụ về cách nhìn đồ thị dư so với IV có thể khiến bạn lạc lối. Tôi không biết những gì khác để nói.
gung - Phục hồi Monica

6

Đúng là các lô dư thông thường là công việc khó khăn hơn trong trường hợp này: có thể (rất nhiều) khó khăn hơn để xem liệu các bản phân phối có giống nhau hay không. Nhưng có những lựa chọn thay thế dễ dàng ở đây. Bạn chỉ đang so sánh hai bản phân phối, và có nhiều cách tốt để làm điều đó. Một số khả năng là các ô số lượng tử cạnh nhau hoặc chồng chất, biểu đồ hoặc sơ đồ hình hộp. Định kiến ​​của riêng tôi là các ô hộp không được sử dụng thường được sử dụng quá mức ở đây: chúng thường sẽ triệt tiêu chi tiết mà chúng ta muốn xem xét, ngay cả khi chúng ta thường có thể loại bỏ nó là không quan trọng. Nhưng bạn có thể ăn bánh của bạn và có nó.

Bạn sử dụng R, nhưng không có gì thống kê trong câu hỏi của bạn là R cụ thể. Ở đây tôi đã sử dụng Stata cho một hồi quy trên một công cụ dự đoán nhị phân duy nhất và sau đó kích hoạt các ô hộp lượng tử so sánh các phần dư cho hai cấp độ của công cụ dự đoán. Kết luận thực tế trong ví dụ này là các bản phân phối giống nhau.

nhập mô tả hình ảnh ở đây

1/43/4

Lưu ý: Xem thêm Làm thế nào để trình bày cốt truyện hộp với một ngoại lệ cực đoan? bao gồm ví dụ của @ Glen_b về các lô tương tự bằng R. Các lô như vậy sẽ dễ dàng trong bất kỳ phần mềm tử tế nào; nếu không, phần mềm của bạn không tốt


+1 Đẹp. Bạn có cảm thấy rằng có một vai trò để kiểm tra giả thuyết về phần dư ở đây không?
Alexis

@gung Tôi đã chỉnh sửa chỉnh sửa của bạn. Bản gốc rõ ràng là không đủ rõ ràng nếu bạn hiểu nhầm nó.
Nick Cox

2
@Alexis Cảm ơn! Tôi hài lòng với ý tưởng rằng một giả thuyết về sự phân tán bằng nhau được hỗ trợ không chính thức bởi biểu đồ trong trường hợp này. Tôi không thuộc trường phái tư tưởng rằng mỗi bước nhỏ trong phân tích cần phải được thánh hóa bằng giá trị P. Thật không may, không bao giờ dễ dàng để chắc chắn rằng bạn nhảy đúng cách, nhưng tôi sẽ thực tế giải trí các mô hình khác nếu tôi nghi ngờ. Ở đây ví dụ chỉ là pha chế cho câu hỏi và không phải là một phần của phân tích nghiêm túc.
Nick Cox

Tôi xin lỗi, Nick. Tôi đã hiểu sai ý của cụm từ đó. Tôi nghĩ đó là một lỗi đánh máy. Bây giờ thì rõ ràng hơn.
gung - Phục hồi Monica

1
@whuber Điều đó tốt bởi tôi. Một số người thấy chúng khó hiểu, hoặc vì vậy tôi được nói.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.