@NickCox đã thực hiện một công việc tốt khi nói về màn hình của phần dư khi bạn có hai nhóm. Hãy để tôi giải quyết một số câu hỏi rõ ràng và các giả định ngầm ẩn đằng sau chủ đề này.
Câu hỏi đặt ra, "làm thế nào để bạn kiểm tra các giả định của hồi quy tuyến tính, chẳng hạn như homoscedasticity khi một biến độc lập là nhị phân?" Bạn có một mô hình hồi quy bội . Mô hình hồi quy (nhiều) giả định chỉ có một thuật ngữ lỗi, không đổi ở mọi nơi. Nó không có ý nghĩa khủng khiếp (và bạn không có) để kiểm tra tính không đồng nhất cho từng yếu tố dự đoán. Đây là lý do tại sao, khi chúng ta có một mô hình hồi quy bội, chúng ta chẩn đoán tính không đồng nhất từ các lô của phần dư so với các giá trị dự đoán. Có lẽ âm mưu hữu ích nhất cho mục đích này là một biểu đồ vị trí tỷ lệ (còn được gọi là 'mức độ lây lan'), là một biểu đồ của căn bậc hai của giá trị tuyệt đối của phần dư so với các giá trị dự đoán. Để xem các ví dụ,"Phương sai không đổi" trong mô hình hồi quy tuyến tính có nghĩa là gì?
Tương tự như vậy, bạn không phải kiểm tra phần dư cho từng yếu tố dự đoán về tính quy tắc. (Thành thật tôi thậm chí không biết nó sẽ hoạt động như thế nào.)
Những gì bạn có thể làm với các lô dư so với các yếu tố dự đoán riêng lẻ là kiểm tra xem hình thức chức năng có được chỉ định đúng không. Ví dụ: nếu phần dư tạo thành một parabol, có một số độ cong trong dữ liệu mà bạn đã bỏ lỡ. Để xem ví dụ, hãy xem biểu đồ thứ hai trong câu trả lời của @ Glen_b tại đây: Kiểm tra chất lượng mô hình trong hồi quy tuyến tính . Tuy nhiên, những vấn đề này không áp dụng với công cụ dự đoán nhị phân.
Đối với những gì nó có giá trị, nếu bạn chỉ có các dự đoán phân loại, bạn có thể kiểm tra tính không đồng nhất. Bạn chỉ cần sử dụng thử nghiệm của Levene. Tôi thảo luận về nó ở đây: Tại sao thử nghiệm của Levene về sự bình đẳng của phương sai thay vì tỷ lệ F? Trong R bạn sử dụng ? LeveneTest từ gói xe hơi.
Chỉnh sửa: Để minh họa rõ hơn điểm nhìn vào một biểu đồ của phần dư so với một biến dự đoán riêng lẻ không giúp ích gì khi bạn có mô hình hồi quy bội, hãy xem xét ví dụ này:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Bạn có thể thấy từ quá trình tạo dữ liệu không có sự không đồng nhất. Chúng ta hãy kiểm tra các sơ đồ liên quan của mô hình để xem liệu chúng có ngụ ý tính không đồng nhất có vấn đề hay không:
Không, không có gì phải lo lắng. Tuy nhiên, chúng ta hãy xem xét biểu đồ của phần dư so với biến dự đoán nhị phân riêng lẻ để xem liệu có vẻ như có sự không đồng nhất ở đó không:
Uh oh, có vẻ như có thể có một vấn đề. Chúng tôi biết từ quá trình tạo dữ liệu rằng không có bất kỳ sự không đồng nhất nào và các âm mưu chính để khám phá điều này cũng không hiển thị gì cả, vậy điều gì đang xảy ra ở đây? Có thể những mảnh đất này sẽ giúp:
x1
và x2
không độc lập với nhau. Hơn nữa, các quan sát ở đâu x2 = 1
là cực đoan. Họ có nhiều đòn bẩy hơn, vì vậy phần dư của họ tự nhiên nhỏ hơn. Tuy nhiên, không có sự không đồng nhất.
Thông điệp mang về nhà: Đặt cược tốt nhất của bạn là chỉ chẩn đoán tính không đồng nhất từ các lô thích hợp (phần dư so với âm mưu được trang bị và âm mưu mức độ lây lan).