Lỗi hệ thống / đo lường trên hồi quy tuyến tính


8

Giả sử tôi có một bộ dữ liệu trong đó độ không đảm bảo trong các phép đo (xuất phát từ sự lan truyền các lỗi hệ thống từ thiết bị đo) điểm. Nếu tôi thực hiện hồi quy tuyến tính trên tập dữ liệu, làm thế nào để tôi tính toán độ không đảm bảo trong độ dốc? Tôi muốn một thủ tục rõ ràng hoặc công thức.( Δ x i , Δ y i )(xi,yi)(Δxi,Δyi)


2
Bạn có ý thức về lỗi đo lường nào lớn hơn không?
Dimitriy V. Masterov

1
Theo deltas, bạn có nghĩa là sự khác biệt giữa các phép đo liên tiếp? Là dữ liệu của bạn tuần tự? Bạn có mong đợi lỗi tương quan? Bạn có mong đợi sự tương quan để phân rã? Bạn có bất kỳ loại bản sao độc lập? Thêm thông tin là cần thiết để cung cấp một câu trả lời cụ thể.
dùng3903581

Thuật ngữ bạn đang tìm kiếm là tuyên truyền lỗi. Bạn có lỗi ở phía đầu vào và tính toán (cụ thể hơn: ước tính) hai tham số từ nó. Thật không may, tên "hồi quy tuyến tính" chỉ mô tả một mô hình (phổ biến), nhưng không phải là phương pháp mà bạn ước tính các tham số. Đối với các phương pháp được sử dụng nhiều nhất, có lẽ bạn có thể tra cứu giải pháp (ví dụ: bình phương nhỏ nhất). Nếu không, bạn có thể tính toán phân tích hoặc tính gần đúng bằng cách đánh giá số.
cherub

Câu trả lời:


4

Chúng ta có thể mô hình thử nghiệm dưới dạng trong đó biểu thị các giá trị thực, là các lỗi đo lường, là các thành phần "cố định" của chúng độc lập với quan sát (có thể phát sinh từ việc hiệu chuẩn sai các cảm biến) và thay đổi từ quan sát đến quan sát và tương ứng với nhiều yếu tố có thể mà chúng ta coi là ngẫu nhiên.y i = y * i + ~ v i ~ u i = ˉ u + v i ~ v i = ˉ v + u i x * i , y * i ~ u i , ~ v i ˉ u , ˉ v u , v

xi=xi+u~i
yi=yi+v~i
u~i=u¯+vi
v~i=v¯+ui
xTôi*,yTôi*bạn~Tôi,v~Tôibạn¯,v¯bạn,v

Hồi quy tuyến tính đơn giản là và ước tính OLS của độ dốc là Tuy nhiên, những gì chúng tôi có được làβ = C o v ( x * , y * )

yTôi*= =α+βxTôi*+eTôi
~ β =Cov(x,y)
β^= =Cov(x*,y*)Vmộtr(x*)
β~= =Cov(x,y)Vmộtr(x)= =Cov(x*+bạn,y*+v)Vmộtr(x*+bạn)= =Cov(x*,y*)+Cov(x*,v)+Cov(y*,bạn)+Cov(bạn,v)Vmộtr(x*)+Vmộtr(bạn)+2Cov(x,bạn)

Bây giờ hãy giả sử rằng không tương quan với và nhau (một giả định khá mạnh có thể được cải thiện nếu chúng ta có nhiều suy luận về bản chất của lỗi). Sau đó, ước tính của chúng tôi là Chúng tôi có thể ước tính là biến thể mẫu của . Chúng ta cũng cần ước tính . Nếu chúng ta có một thử nghiệm khi chúng ta có thể quan sát nhiều lần, thì một cách tiếp cận đơn giản là ước tính ].v,bạnx*,y*

β~= =βσx*2σx*2+σbạn2βσ^x2-σ^bạn2σ^x2= =βλ^
σ^x2xTôiσbạn2xTôi*σbạn2= =E[σx2|xTôi*

Bây giờ chúng ta có thể sử dụng tính toán với, ví dụ, phương thức bootstrap và sửa nó cho sao cho .σ^β~2β^= =β~/λ^

σ^β^2= =σ^β~2λ^2

3

Tôi nghĩ rằng câu trả lời được đưa ra bởi @yshilov chắc chắn là tuyệt vời bằng cách xem xét lỗi đo lường thành thuật ngữ lỗi và đáng kể, suy ra kết quả

β~= =βσx2σx2+σbạn2

Để giải thích, bản beta này có các thuộc tính đặc biệt là công cụ ước tính thiên vị, nhưng thiên về 0. Cụ thể, đối với hồi quy tuyến tính,E(β^1)= =β1[σx2+σxδσx2+2σxδ+σδ2]

Bằng chứng là như sau: trong hồi quy tuyến tính đơn giản, gọi lại Trong trường hợp có lỗi đo lường, chúng tôi có , và , vì vậy chúng tôi có được Giả sử rằng , , và phương sai của giá trị dự đoán thực

β^1= =ΣTôi= =1n(xTôi-x¯)yTôiΣTôi= =1n(xTôi-x¯)2
xTôiÔi= =xTôiMột= =δTôiyTôiÔi= =yTôiMột+εTôiyTôiMột= =β0+β1xTôiMột
yTôiÔi= =β0+β1(xTôiÔi-δTôi)+εTôi= =β0+β1xTôiÔi+(εTôi-β1δTôi)
E(εTôi)= =E(δTôi)= =0vmộtr(εTôi)= =σε2vmộtr(δTôi)= =σδ2= =1nΣTôi= =1n(δTôi-δ¯)2σx2= =Σ(xTôiMột-xMột¯)2nvà mối tương quan của dự đoán đúng và lỗi , sau đóσxδ= =cov(xMột,δ)= =1nΣTôi= =1n(xTôiMột-xTôiMột¯)(δTôi-δ¯)

cov(xTôiÔi,δ)= =E(xTôiÔiδ)-E(xTôiÔi)E(δ)= =E(xTôiÔiδ)= =E[(xTôiMột+δ)δ]= =E(xTôiMộtδ)+E(δ2)
= =[E(xTôiMộtδ)-E(xTôiMột)E(δ)]+[vmộtr(δ)+[E(δ)]2]= =cov(xTôiMột,δ)+σδ2= =σxδ+σδ2
Sau đó, bởi và thuộc tính song phương trong hiệp phương sai, kỳ vọng của là x¯= =E(xTôi)β^1
E(β^1)= =E[ΣTôi= =1n(xTôiÔi-x¯Ôi)yTôiÔiΣTôi= =1n(xTôiÔi-x¯Ôi)2]= =E(ΣTôi= =1nxTôiÔiyTôiÔi)-E(ΣTôi= =1nx¯ÔiyTôiÔi)ΣTôi= =1nE[(xTôiÔi-E(xTôiÔi))2]= =E(ΣTôi= =1nxTôiÔiyTôiÔi)-E(xTôiÔi)E(ΣTôi= =1nyTôiÔi)ΣTôi= =1nvmộtr(xTôiÔi)
= =ΣTôi= =1ncov(yTôiÔi,xTôiÔi)ΣTôi= =1nvmộtr(xTôiÔi)= =ΣTôi= =1ncov(β0+β1xTôiÔi+εTôi-β1δTôi, xTôiÔi)ΣTôi= =1nvmộtr(xTôiÔi)= =β1ΣTôi= =1nvmộtr(xTôiÔi)-β1ΣTôi= =1ncov(xTôiÔi,δTôi)ΣTôi= =1nvmộtr(xTôiÔi)
=β1[1i=1ncov(xiO,δi)/ni=1nvar(xiA+δi)/n]=β1[1σxδ+σδ2σx2+2cov(xiA,δi)+σδ2]=β1[σx2+σxδσx2+2σxδ+σδ2]
, như mong muốn. Do đó, kết quả được thiết lập tốt.E(β^1)=β1[σx2+σxδσx2+2σxδ+σδ2]

1

Tôi có một vấn đề tương tự - được đăng ở đây - và vẫn chưa có câu trả lời nhất định. Những gì tôi đã làm lúc này chỉ đơn giản là thu thập một tập hợp các X rất giống nhau và kiểm tra xem có biến thể lớn nào cho Y trong các dòng đó không. Một cách tiếp cận khác có thể là một mô phỏng: bạn sử dụng một X duy nhất từ ​​tập dữ liệu của mình, nhưng sao chép các dòng theo lỗi hệ thống dự đoán (một cái gì đó như rnorm (..., 0,0.3)). Khoảng tin cậy cho độ dốc có thể là một cái gì đó tương tự như khoảng lỗi hệ thống.


0

Tôi muốn giới thiệu một bootstrap tham số trên dữ liệu. Điều đó có nghĩa là tạo ra các bộ dữ liệu mới tương tự như bộ dữ liệu thực, nhưng khác với mức độ không chắc chắn của bạn trong mỗi quan sát.

Đây là một số mã giả cho điều đó. Lưu ý rằng tôi đang sử dụng các đầu vào vectơ để rnorm, như bình thường trong ngôn ngữ R. Ngoài ra, tôi giả sử rằng những gì bạn đang gọi là lỗi tiêu chuẩn.Δ

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Sau đó nhìn vào sự phân bố của các giá trị trong r.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.