Là hồi quy của x trên y rõ ràng tốt hơn y trên x trong trường hợp này?


10

Một dụng cụ dùng để đo nồng độ glucose trong máu của một người được theo dõi trên một mẫu ngẫu nhiên gồm 10 người. Các mức cũng được đo bằng cách sử dụng một quy trình thí nghiệm rất chính xác. Thước đo dụng cụ được ký hiệu là x. Các biện pháp thủ tục phòng thí nghiệm được ký hiệu là y.

Cá nhân tôi nghĩ rằng y trên x là chính xác hơn bởi vì ý định là sử dụng các bài đọc cụ để dự đoán các bài đọc trong phòng thí nghiệm. Và y trên x giảm thiểu các lỗi của các dự đoán đó.

Nhưng câu trả lời được cung cấp là x trên y.


2
Chào mừng đến với trang web, @Neo. Nếu câu hỏi này được thúc đẩy bởi một bài tập trong lớp / sách giáo khoa, vui lòng thêm [self-study]thẻ.
gung - Tái lập Monica

Câu trả lời:


6

Rất nhiều bài báo trong phòng thí nghiệm, đặc biệt là các thí nghiệm kiểm tra dụng cụ, áp dụng x trên hồi quy y.

Họ lập luận rằng từ việc thu thập dữ liệu trong thí nghiệm, các điều kiện y được kiểm soát và nhận x từ việc đọc công cụ (đưa ra một số lỗi trong đó). Đây là mô hình vật lý ban đầu của thử nghiệm, vì vậy lỗi x ~ y + phù hợp hơn.

Để giảm thiểu lỗi thử nghiệm, đôi khi, y được kiểm soát trong cùng điều kiện, sau đó x được đo nhiều lần (hoặc thử nghiệm lặp lại). Quy trình này có thể giúp bạn hiểu logic đằng sau chúng và tìm lỗi x ~ y + rõ ràng hơn.


+1 Tôi nghĩ thực sự về câu trả lời cho đến nay, đây có lẽ là địa chỉ tốt nhất cho bài viết gốc. Câu hỏi này gần như chắc chắn được thúc đẩy bằng cách hiểu công cụ hơn là hiệu chỉnh proxy. Nếu bạn chỉ có một phép đo X cho mỗi Y, thì tôi khá chắc chắn (bình luận của một bên) rằng Y-on-X là một cách tiếp cận đúng. Mặc dù nhiều X phá hủy điều đó, nhưng X-on-Y vẫn đúng (nhưng không thể sử dụng để dự đoán Y).
Corone

Bạn có một vấn đề, @Corone: nếu cả X vs Y và Y vs X đều đúng, tất cả chúng ta đều biết bạn nhận được các dòng được trang bị khác nhau bất cứ khi nào nhỏ hơn . Bạn sẽ chọn dòng nào trong hai dòng đó và trên cơ sở nào? Giải pháp chính xác của vấn đề nan giải này là - như Vincent giải thích - có một sự bất cân xứng trong quan niệm của chúng tôi về lỗi đo lường: thiết bị được đo với sai số đáng kể; phòng thí nghiệm được coi là không có lỗi đáng kể. Các thủ tục hồi quy thông thường giả sử X không có lỗi và tất cả các lỗi là ở Y, do đó giải quyết nó. 1R21
whuber

@ whuber họ đều đúng nhưng trả lời các vấn đề khác nhau. Với nhiều phép đo X, Y-on-X thậm chí không còn đúng cho vấn đề cần phải trả lời. Nhận xét của tôi đang trở nên ngớ ngẩn mặc dù vậy sẽ thay đổi câu trả lời của tôi thay vào đó
Corone

6

Như thường lệ, các phân tích khác nhau trả lời các câu hỏi khác nhau. Cả và có thể hợp lệ ở đây, bạn chỉ muốn đảm bảo phân tích của mình khớp với câu hỏi bạn muốn trả lời. (Để biết thêm về các dòng này, bạn có thể muốn đọc câu trả lời của tôi ở đây: Sự khác biệt giữa hồi quy tuyến tính trên Y với X và X với Y là gì? )X  trên  YY on XX on Y

Bạn là đúng rằng nếu tất cả các bạn sẽ muốn làm là dự đoán rất có thể giá trị nhất định kiến thức của một giá trị, bạn thậm chí tụt lùi . Tuy nhiên, nếu bạn muốn hiểu thế nào các biện pháp này liên quan với nhau, bạn có thể muốn sử dụng một lỗi-trong-biến phương pháp, vì bạn tin rằng có sai số đo trong . X Y  trên  X XYXY on XX

Mặt khác, suy thoái (và giả sử là hoàn toàn không bị lỗi - một cái gọi là tiêu chuẩn vàng ) cho phép bạn nghiên cứu các thuộc tính đo lường của . Ví dụ: bạn có thể xác định xem công cụ có bị sai lệch khi giá trị thực tăng (hoặc giảm) hay không bằng cách đánh giá xem hàm có thẳng hay cong hay không. Y XX on YYX

Khi cố gắng tìm hiểu các thuộc tính của một công cụ đo lường, tìm hiểu bản chất của sai số đo là rất quan trọng, và điều này có thể được thực hiện bởi suy thoái . Chẳng hạn, khi kiểm tra độ đồng nhất, bạn có thể xác định xem lỗi đo có thay đổi như một hàm của mức giá trị thực của cấu trúc không. Thông thường với các thiết bị có nhiều lỗi đo ở các cực trị của phạm vi của nó hơn ở giữa phạm vi áp dụng của nó (nghĩa là 'điểm ngọt' của nó), vì vậy bạn có thể xác định điều này hoặc có thể xác định mức nào phù hợp nhất phạm vi là. Bạn cũng có thể ước tính số tiềnYX on Ylỗi đo lường trong công cụ của bạn với lỗi bình phương trung bình gốc (độ lệch chuẩn còn lại); tất nhiên điều này giả định tính đồng nhất, nhưng bạn cũng có thể nhận được ước tính tại các điểm khác nhau trên thông qua việc khớp một hàm trơn, như spline , với phần dư. Y

Dựa trên những cân nhắc này, tôi đoán sẽ tốt hơn, nhưng chắc chắn nó phụ thuộc vào mục tiêu của bạn là gì. X on Y


+1 Để nhận ra rằng hồi quy trên yêu cầu các lỗi trong biến và câu trả lời thực sự đòi hỏi phải hiểu các mục tiêu của phân tích. YX
whuber

@whuber Lỗi trong các biến không phù hợp để dự đoán. Lỗi trong các biến là hữu ích nếu bạn muốn hiểu mức độ quan hệ nhưng có lỗi đo lường trong X và Y. Để dự đoán, X "được biết là không có lỗi" miễn là nó được thu thập theo cách tương tự trong tập huấn luyện của bạn và dự đoán đặt.
Corone

@Corone Bạn đã đúng rằng các lỗi trong biến không tốt cho dự đoán, nhưng đó không phải là điều được khuyến nghị theo như tôi có thể nói. Thật vậy, đây chính xác là lý do tại sao một người thực sự cần phải hồi quy công cụ chống lại phòng thí nghiệm (chỉ sử dụng OLS) chứ không phải theo cách khác. Vui lòng tham khảo tài liệu tham khảo Draper & Smith mà tôi trích dẫn trong một bình luận khác cho chủ đề này. Tôi đang dựa vào phần 1.7 của phiên bản thứ hai.
whuber

@Corone, bạn nói đúng về dự đoán / lỗi trong biến, nhưng đó không phải là điều tôi muốn nói. Tôi sẽ cố gắng nghĩ ra một cách tốt hơn để diễn đạt nó.
gung - Tái lập Monica

4

Dự đoán và dự báo

Đúng vậy, khi bạn xem đây là một vấn đề dự đoán, hồi quy Y-on-X sẽ cung cấp cho bạn một mô hình sao cho phép đo dụng cụ bạn có thể đưa ra ước tính không thiên vị về phép đo trong phòng thí nghiệm chính xác, mà không cần thực hiện quy trình thí nghiệm .

Nói cách khác, nếu bạn chỉ quan tâm đến thì bạn muốn hồi quy Y-on-X.E[Y|X]

Điều này có vẻ phản trực giác vì cấu trúc lỗi không phải là "thực". Giả sử rằng phương pháp phòng thí nghiệm là phương pháp không có lỗi tiêu chuẩn vàng, thì chúng tôi "biết" rằng mô hình tạo dữ liệu thực sự là

Xi=βYi+ϵi

Trong đó và là phân phối nhận dạng độc lập vàYiϵiE[ϵ]=0

Chúng tôi quan tâm đến việc ước tính tốt nhất về . Do giả định độc lập của chúng tôi, chúng tôi có thể sắp xếp lại các điều trên:E[Yi|Xi]

Yi=Xiϵβ

Bây giờ, lấy kỳ vọng cho là nơi mọi thứ trở nên rậm lôngXi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

Vấn đề là thuật ngữ - nó có bằng không? Nó không thực sự quan trọng, bởi vì bạn không bao giờ có thể nhìn thấy nó và chúng tôi chỉ mô hình hóa các thuật ngữ tuyến tính (hoặc đối số mở rộng cho bất kỳ thuật ngữ nào bạn đang lập mô hình). Bất kỳ sự phụ thuộc nào giữa và chỉ có thể được hấp thụ vào hằng số mà chúng ta đang ước tính.E[ϵi|Xi]ϵX

Rõ ràng, không mất tính tổng quát, chúng ta có thể để

ϵi=γXi+ηi

Trong đó theo định nghĩa, để bây giờ chúng ta cóE[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

thỏa mãn tất cả các yêu cầu của OLS, vì hiện là ngoại sinh. Điều quan trọng nhất là thuật ngữ lỗi cũng chứa vì dù sao cũng không biết hay và phải được ước tính. Do đó, chúng ta có thể chỉ cần thay thế các hằng số đó bằng các hằng số mới và sử dụng phương pháp bình thườngηββσ

YI=αXi+ηi

Lưu ý rằng chúng tôi KHÔNG ước tính số lượng mà tôi đã viết ban đầu - chúng tôi đã xây dựng mô hình tốt nhất có thể để sử dụng X làm proxy cho Y.β

Phân tích dụng cụ

Người đặt ra cho bạn câu hỏi này, rõ ràng không muốn câu trả lời ở trên vì họ nói X-on-Y là phương pháp chính xác, vậy tại sao họ có thể muốn điều đó? Nhiều khả năng họ đang xem xét nhiệm vụ tìm hiểu nhạc cụ. Như đã thảo luận trong câu trả lời của Vincent, nếu bạn muốn biết về họ muốn nhạc cụ hoạt động, X-on-Y là con đường để đi.

Quay trở lại phương trình đầu tiên ở trên:

Xi=βYi+ϵi

Người đặt câu hỏi có thể đã nghĩ đến việc hiệu chuẩn. Một công cụ được cho là được hiệu chỉnh khi nó có kỳ vọng bằng giá trị thực - đó là . Rõ ràng để hiệu chỉnh bạn cần tìm , và vì vậy để hiệu chỉnh một công cụ bạn cần thực hiện hồi quy X-on-Y.E[Xi|Yi]=YiXβ

Co ngót

Hiệu chuẩn là một yêu cầu trực quan nhạy cảm của một thiết bị, nhưng nó cũng có thể gây nhầm lẫn. Lưu ý rằng ngay cả một công cụ được hiệu chỉnh tốt sẽ không hiển thị cho bạn giá trị mong đợi của ! Để có bạn vẫn cần thực hiện hồi quy Y-on-X, ngay cả với một công cụ được hiệu chỉnh tốt. Ước tính này nhìn chung sẽ trông giống như một phiên bản thu nhỏ của giá trị công cụ (hãy nhớ thuật ngữ hiện). Đặc biệt, để có được một ước tính thực sự tốt của bạn nên bao gồm kiến thức trước đây của bạn về sự phân bố của . Điều này sau đó dẫn đến các khái niệm như vịnh hồi quy trung bình và kinh nghiệm.YE[Y|X]γE[Y|X]Y

Ví dụ trong R Một cách để cảm nhận về những gì đang diễn ra ở đây là tạo một số dữ liệu và thử các phương pháp. Mã dưới đây so sánh X-on-Y với Y-on-X để dự đoán và hiệu chuẩn và bạn có thể nhanh chóng thấy rằng X-on-Y không tốt cho mô hình dự đoán, nhưng là quy trình chính xác để hiệu chuẩn.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Hai đường hồi quy được vẽ trên dữ liệu

nhập mô tả hình ảnh ở đây

Và sau đó tổng sai số bình phương cho Y được đo cho cả hai khớp trên một mẫu mới.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Ngoài ra, một mẫu có thể được tạo ở một Y cố định (trong trường hợp này là 4) và sau đó trung bình của các ước tính được thực hiện. Bây giờ bạn có thể thấy rằng bộ dự đoán Y-on-X không được hiệu chỉnh tốt có giá trị dự kiến ​​thấp hơn nhiều so với Y. Bộ dự đoán X-on-Y, được hiệu chỉnh tốt có giá trị dự kiến ​​gần với Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Phân phối của hai dự đoán có thể được nhìn thấy trong một âm mưu mật độ.

nhập mô tả hình ảnh ở đây


Không, OP không đúng: Hồi quy Y-on-X giả định một mô hình biến đổi khác biệt so với mô tả trong vấn đề và do đó không có khả năng là một quy trình thích hợp. Khi mục đích là dự đoán từ và đó là được đo với sai số đáng kể, thì bạn đang ở trong tình huống hồi quy ngược . Điều này được thảo luận trong Draper & Smith, Phân tích hồi quy ứng dụng , ví dụ. YXX
whuber

3
Vấn đề là bạn không nhìn vào mô hình đầy đủ, đó là vớiKhi bạn đảo ngược đại số này, bạn nhận được . Nó thực sự có thể được viết lại dưới dạng nhưng bây giờ : phương sai của phần dư phụ thuộc vào độ dốc! Nếu là đáng chú ý, thì bình phương nhỏ nhất phù hợp là không tốt và ước tính phương sai của nó đều sai. Var ( ε ) = σ 2 . X = ( Y - β 0 - ε ) / β 1 X = α 0 + α 1 Y + δ Var ( δ ) = σ 2 α 2 1 σ 2Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
whuber

1
Việc chỉnh sửa mắc một lỗi nghiêm trọng tại "Không có vấn đề gì trong một chút rằng thuật ngữ lỗi cũng chứa ." Ngược lại, nó rất quan trọng (viết ra khả năng nhìn thấy). Cụ thể, thuật toán bình phương nhỏ nhất không còn có các thuộc tính mà bạn mong đợi nó có và công cụ ước tính khả năng tối đa khác với những gì bạn nghĩ nó có thể có. Nhân tiện, ví dụ của bạn không thể hiểu được nếu không đọc mã, bởi vì nó hoàn toàn không rõ phương thức nào được hiển thị màu đỏ và màu xanh nào! β
whuber

2
Y có thể là một biến ngẫu nhiên trong một nhóm người, nhưng đối với bất kỳ người nào, đó là một tham số cần ước tính. Việc áp dụng Y trên X thu nhỏ mọi ước tính của Y đối với giá trị trung bình của nhóm, điều này giúp giảm sai số bình phương trung bình so với mọi người nhưng tạo ra những thành kiến ​​có hệ thống có thể không được chấp nhận vì lý do đạo đức hoặc pháp lý. Hồi quy X trên Y cung cấp thông tin có thể được sử dụng để xây dựng khoảng tin cậy không thiên vị cho Y của mỗi người, nhưng các khoảng đó có xu hướng rộng, như vùng màu xanh trong ô, trong khi khoảng dự đoán từ hồi quy Y trên X hẹp hơn nhưng sai lệch , giống như màu đỏ.
Ray Koopman

1
@RayKoopman đó là một cách tuyệt vời để đặt nó! Có - Y trên X là về việc có được dự đoán tốt nhất trung bình trên nhiều Y khác nhau, trong khi hiệu chuẩn là về sự công bằng và không thiên vị cho một cá nhân Y.
Corone

2

Nó phụ thuộc vào các giả định của bạn về phương sai của X và phương sai của Y đối với bình phương tối thiểu thông thường. Nếu Y có nguồn phương sai duy nhất và X có phương sai bằng 0, thì hãy sử dụng X để ước lượng Y. Nếu các giả định là cách khác (X có phương sai duy nhất và Y có phương sai bằng 0), thì hãy sử dụng Y để ước tính X.

Nếu cả X và Y được giả sử là có phương sai, thì bạn có thể cần xem xét Tổng bình phương tối thiểu .

Một mô tả tốt về TLS đã được viết lên tại liên kết này . Bài viết hướng đến giao dịch, nhưng phần 3 thực hiện tốt công việc mô tả TLS.

Chỉnh sửa 1 (09/10/2013) ========================================= ======

Ban đầu tôi cho rằng đây là một số vấn đề bài tập về nhà, vì vậy tôi đã không nhận được cụ thể thực sự về "câu trả lời" cho câu hỏi của OP. Nhưng, sau khi đọc các câu trả lời khác, có vẻ như không sao để biết thêm chi tiết.

Trích dẫn một phần câu hỏi của OP:

".... Các mức cũng được đo bằng cách sử dụng quy trình thí nghiệm rất chính xác ...."

Tuyên bố trên nói rằng có hai phép đo, một từ dụng cụ và một từ quy trình thí nghiệm. Tuyên bố cũng ngụ ý rằng phương sai cho quy trình thí nghiệm là thấp so với phương sai cho dụng cụ.

Một trích dẫn khác từ câu hỏi của OP là:

".... Biện pháp phòng thí nghiệm được ký hiệu là y ....."

Vì vậy, từ hai câu trên, Y có phương sai thấp hơn. Vì vậy, kỹ thuật ít bị lỗi nhất là sử dụng Y để ước tính X. "Câu trả lời được cung cấp" là chính xác.


1
+1 cho đề xuất TLS. Nếu có ý nghĩa để suy ngẫm cả hai hình thức hồi quy, điều đó có nghĩa là bạn tin rằng cả và đều phải chịu một lượng biến đổi ngẫu nhiên quan trọng, có lẽ bạn không nên sử dụng hồi quy thông thường trong mọi trường hợp! YXY
whuber

Không, lựa chọn hồi quy không nên được thực hiện dựa trên vị trí của phương sai - nó nên được thực hiện dựa trên câu hỏi bạn đang cố gắng trả lời. Nếu bạn sử dụng TLS để xây dựng mô hình dự đoán cho Y đã cho X, bạn sẽ sai. TLS và các mô hình lỗi-biến tương tự đều là về việc hiểu mối quan hệ thực sự giữa các biến / quy trình cơ bản - không phải về dự báo
Corone

1
@Corone Mặc dù bạn đúng rằng các mục tiêu của một người hướng dẫn lựa chọn các quy trình thống kê, quy trình cũng phải phù hợp với mô hình xác suất ("trong đó phương sai là"). Nếu mục đích của bạn là dự đoán việc đọc trong phòng thí nghiệm từ việc đọc công cụ có phương sai cao, thì chắc chắn chọn một quy trình phù hợp với điều đó: nhưng quy trình đó không phải là dự đoán bằng cách sử dụng ước lượng bình phương nhỏ nhất và ước lượng phương sai của nó.
whuber

1
@Corone - Tôi đồng ý rằng kỹ thuật hồi quy nên dựa trên câu hỏi bạn đang cố gắng trả lời, tuy nhiên kỹ thuật được chọn chứa các giả định về phương sai của các biến. Nếu các giả định phương sai của lựa chọn không khớp với khái niệm của bạn cho mô hình, thì bạn đã chọn sai kỹ thuật. Đó là lý do tại sao tôi liệt kê 3 khả năng (phương sai 0 X để ước tính phương sai Y; không Y để ước tính X; hoặc phương sai X và Y khác không).
bill_080
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.