Mất cân bằng không nhất thiết là một vấn đề, nhưng làm thế nào bạn có thể có được. Sẽ không có cơ sở để dựa trên chiến lược lấy mẫu của bạn trên biến mục tiêu. Bởi vì biến này kết hợp tính ngẫu nhiên trong mô hình hồi quy của bạn, nếu bạn lấy mẫu dựa trên điều này, bạn sẽ gặp vấn đề lớn khi thực hiện bất kỳ loại suy luận nào. Tôi nghi ngờ có thể "hoàn tác" những vấn đề đó.
Bạn có thể vượt quá hoặc dưới mẫu một cách hợp pháp dựa trên các biến dự đoán . Trong trường hợp này, với điều kiện bạn kiểm tra cẩn thận rằng các giả định mô hình có vẻ hợp lệ (ví dụ: đồng nhất hóa có ý nghĩa quan trọng trong tình huống này, nếu bạn có hồi quy "thông thường" với các giả định thông thường), tôi không nghĩ bạn cần phải hoàn tác quá khổ khi dự đoán. Trường hợp của bạn bây giờ sẽ tương tự như một nhà phân tích đã thiết kế một thử nghiệm rõ ràng để có một phạm vi cân bằng của các biến dự đoán.
Chỉnh sửa - bổ sung - mở rộng về lý do tại sao nó xấu khi lấy mẫu dựa trên Y
y= Xb + eeeXb) e sẽ không còn có giá trị trung bình bằng 0 hoặc được phân phối giống hệt nhau. Ví dụ: các giá trị thấp của y có thể bao gồm các giá trị rất thấp của e có thể ít được chọn hơn. Điều này làm hỏng bất kỳ suy luận dựa trên các phương tiện thông thường để phù hợp với các mô hình như vậy. Sửa chữa có thể được thực hiện tương tự như thực hiện trong kinh tế lượng để phù hợp với các mô hình cắt ngắn, nhưng chúng là một nỗi đau và yêu cầu các giả định bổ sung, và chỉ nên được sử dụng khi không có sự thay thế.
Hãy xem xét minh họa cực đoan dưới đây. Nếu bạn cắt bớt dữ liệu của mình ở một giá trị tùy ý cho biến phản hồi, bạn đưa ra các sai lệch rất đáng kể. Nếu bạn cắt nó cho một biến giải thích, thì không nhất thiết phải có vấn đề. Bạn thấy rằng đường màu xanh lá cây, dựa trên tập hợp con được chọn vì giá trị dự đoán của chúng, rất gần với đường được trang bị thực sự; điều này không thể nói về đường màu xanh, chỉ dựa trên các điểm màu xanh.
Điều này mở rộng cho trường hợp ít nghiêm trọng hơn của quá mức hoặc quá khổ (bởi vì cắt ngắn có thể được xem như là lấy mẫu dưới mức cực đoan logic của nó).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")