Dự đoán và dự báo
Đúng vậy, khi bạn xem đây là một vấn đề dự đoán, hồi quy Y-on-X sẽ cung cấp cho bạn một mô hình sao cho phép đo dụng cụ bạn có thể đưa ra ước tính không thiên vị về phép đo trong phòng thí nghiệm chính xác, mà không cần thực hiện quy trình thí nghiệm .
Nói cách khác, nếu bạn chỉ quan tâm đến thì bạn muốn hồi quy Y-on-X.E[Y|X]
Điều này có vẻ phản trực giác vì cấu trúc lỗi không phải là "thực". Giả sử rằng phương pháp phòng thí nghiệm là phương pháp không có lỗi tiêu chuẩn vàng, thì chúng tôi "biết" rằng mô hình tạo dữ liệu thực sự là
Xi=βYi+ϵi
Trong đó và là phân phối nhận dạng độc lập vàYiϵiE[ϵ]=0
Chúng tôi quan tâm đến việc ước tính tốt nhất về . Do giả định độc lập của chúng tôi, chúng tôi có thể sắp xếp lại các điều trên:E[Yi|Xi]
Yi=Xi−ϵβ
Bây giờ, lấy kỳ vọng cho là nơi mọi thứ trở nên rậm lôngXi
E[Yi|Xi]=1βXi−1βE[ϵi|Xi]
Vấn đề là thuật ngữ - nó có bằng không? Nó không thực sự quan trọng, bởi vì bạn không bao giờ có thể nhìn thấy nó và chúng tôi chỉ mô hình hóa các thuật ngữ tuyến tính (hoặc đối số mở rộng cho bất kỳ thuật ngữ nào bạn đang lập mô hình). Bất kỳ sự phụ thuộc nào giữa và chỉ có thể được hấp thụ vào hằng số mà chúng ta đang ước tính.E[ϵi|Xi]ϵX
Rõ ràng, không mất tính tổng quát, chúng ta có thể để
ϵi=γXi+ηi
Trong đó theo định nghĩa, để bây giờ chúng ta cóE[ηi|X]=0
YI=1βXi−γβXi−1βηi
YI=1−γβXi−1βηi
thỏa mãn tất cả các yêu cầu của OLS, vì hiện là ngoại sinh. Điều quan trọng nhất là thuật ngữ lỗi cũng chứa vì dù sao cũng không biết hay và phải được ước tính. Do đó, chúng ta có thể chỉ cần thay thế các hằng số đó bằng các hằng số mới và sử dụng phương pháp bình thườngηββσ
YI=αXi+ηi
Lưu ý rằng chúng tôi KHÔNG ước tính số lượng mà tôi đã viết ban đầu - chúng tôi đã xây dựng mô hình tốt nhất có thể để sử dụng X làm proxy cho Y.β
Phân tích dụng cụ
Người đặt ra cho bạn câu hỏi này, rõ ràng không muốn câu trả lời ở trên vì họ nói X-on-Y là phương pháp chính xác, vậy tại sao họ có thể muốn điều đó? Nhiều khả năng họ đang xem xét nhiệm vụ tìm hiểu nhạc cụ. Như đã thảo luận trong câu trả lời của Vincent, nếu bạn muốn biết về họ muốn nhạc cụ hoạt động, X-on-Y là con đường để đi.
Quay trở lại phương trình đầu tiên ở trên:
Xi=βYi+ϵi
Người đặt câu hỏi có thể đã nghĩ đến việc hiệu chuẩn. Một công cụ được cho là được hiệu chỉnh khi nó có kỳ vọng bằng giá trị thực - đó là . Rõ ràng để hiệu chỉnh bạn cần tìm , và vì vậy để hiệu chỉnh một công cụ bạn cần thực hiện hồi quy X-on-Y.E[Xi|Yi]=YiXβ
Co ngót
Hiệu chuẩn là một yêu cầu trực quan nhạy cảm của một thiết bị, nhưng nó cũng có thể gây nhầm lẫn. Lưu ý rằng ngay cả một công cụ được hiệu chỉnh tốt sẽ không hiển thị cho bạn giá trị mong đợi của ! Để có bạn vẫn cần thực hiện hồi quy Y-on-X, ngay cả với một công cụ được hiệu chỉnh tốt. Ước tính này nhìn chung sẽ trông giống như một phiên bản thu nhỏ của giá trị công cụ (hãy nhớ thuật ngữ hiện). Đặc biệt, để có được một ước tính thực sự tốt của bạn nên bao gồm kiến thức trước đây của bạn về sự phân bố của . Điều này sau đó dẫn đến các khái niệm như vịnh hồi quy trung bình và kinh nghiệm.YE[Y|X]γE[Y|X]Y
Ví dụ trong R
Một cách để cảm nhận về những gì đang diễn ra ở đây là tạo một số dữ liệu và thử các phương pháp. Mã dưới đây so sánh X-on-Y với Y-on-X để dự đoán và hiệu chuẩn và bạn có thể nhanh chóng thấy rằng X-on-Y không tốt cho mô hình dự đoán, nhưng là quy trình chính xác để hiệu chuẩn.
library(data.table)
library(ggplot2)
N = 100
beta = 0.7
c = 4.4
DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]
YonX = DT[, lm(Y~X)] # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)] # X = beta_1 Y + beta_0 + epsilon
YonX.c = YonX$coef[1] # c = alpha_0
YonX.m = YonX$coef[2] # m = alpha_1
# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1
XonY.c = -XonY$coef[1]/XonY$coef[2] # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2] # m = 1/ beta_1
ggplot(DT, aes(x = X, y =Y)) + geom_point() + geom_abline(intercept = YonX.c, slope = YonX.m, color = "red") + geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")
# Generate a fresh sample
DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]
DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]
cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
# Generate lots of samples at the same Y
DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]
DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]
cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")
Hai đường hồi quy được vẽ trên dữ liệu
Và sau đó tổng sai số bình phương cho Y được đo cho cả hai khớp trên một mẫu mới.
> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction: 77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction: 183.0144
Ngoài ra, một mẫu có thể được tạo ở một Y cố định (trong trường hợp này là 4) và sau đó trung bình của các ước tính được thực hiện. Bây giờ bạn có thể thấy rằng bộ dự đoán Y-on-X không được hiệu chỉnh tốt có giá trị dự kiến thấp hơn nhiều so với Y. Bộ dự đoán X-on-Y, được hiệu chỉnh tốt có giá trị dự kiến gần với Y.
> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4: 1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: 3.465205
Phân phối của hai dự đoán có thể được nhìn thấy trong một âm mưu mật độ.
[self-study]
thẻ.