Sai lệch biến bị bỏ qua trong hồi quy tuyến tính


8

Tôi có một câu hỏi triết học liên quan đến sai lệch biến thiên.

Chúng tôi có mô hình hồi quy điển hình (mô hình dân số) trong đó các mẫu đến từ , và sau đó là một bó điều kiện theo đó các ước tính OLS hoạt động khá tốt.( Y , X 1 , . . . , X n )

Y= =β0+β1X1+...+βnXn+υ,
(Y,X1,...,Xn)

Sau đó, chúng tôi biết rằng, nếu chúng tôi bỏ qua một trong các biến chính, , điều này có thể sai lệch các ước tính của . Điều này ít nhất sẽ ảnh hưởng đến tác động ước tính của phần còn lại của các biến đối với và cả các thử nghiệm giả thuyết về \ beta_1, \ beta_2, ... , vì các giá trị dự đoán không đáng tin cậy.β 0 , β 1 , . . . , β k - 1 , β k + 1 , . . . , Β n Y beta 1 , β 2 , . . .Xkβ0,β1,...,βk-1,βk+1,...,βnYβ1,β2,...

Vấn đề là, chúng ta không biết biến nào trong mô hình dân số thực sự. Thay vào đó, chúng tôi có một loạt các ứng cử viên mà từ đó chúng tôi nên phân tích và tìm ra tập hợp con phù hợp nhất. Quá trình lựa chọn biến này sử dụng các ước tính OLS và kiểm tra giả thuyết một lần nữa. Dựa vào đó, chúng tôi từ chối hoặc bao gồm các biến khác nhau. Nhưng vì mỗi mô hình ứng cử viên đang bỏ qua các biến có liên quan (bạn sẽ không bao giờ có thể tìm thấy mô hình thực sự), các quyết định này có dựa trên kết quả sai lệch không? Tại sao sau đó, chúng ta nên tin tưởng họ?

(Tôi đang nghĩ về phương pháp chuyển tiếp từng bước, ví dụ, trong đó bạn chọn một biến sau đó thêm phần còn lại. Bạn so sánh các mô hình đang suy luận và tôi nghĩ rằng các biến bị bỏ qua có thể làm phiền mọi thứ.)

Tôi chưa bao giờ quá lo lắng về chủ đề này cho đến khi tôi bắt đầu nghĩ về nó, và tôi chắc chắn rằng mình đã sai ở đâu đó.


Một phần samples from (Y,X1,....Xn) and then a bunch of conditions by which the OLS estimations behave quite well.là thực sự những gì bạn muốn nói hoặc đã làm một số câu của bạn bị cắt bỏ. Ngoài ra, bạn có một lỗi chính tả trong tiêu đề của câu hỏi.
Andy W

Vâng, ý tôi là thế. Bạn có mẫu / quan sát, và sau đó là các điều kiện (Gauss-Markov), đảm bảo các công cụ ước tính là những người không được kiểm chứng tốt nhất, v.v.
Josu Momediano 14/213

1
Là một lưu ý phụ, các phương pháp lựa chọn từng bước (chẳng hạn như chuyển tiếp từng bước) rất khó có thể chọn ra mô hình mà bạn nên sử dụng. Nếu điều này không có ý nghĩa, bạn có thể muốn đọc câu trả lời của tôi ở đây: thuật toán lựa chọn mô hình tự động .
gung - Phục hồi Monica

Nhưng bất cứ điều gì phương pháp bạn sử dụng (chuyên môn bao gồm), bạn bắt đầu từ 0, và bạn là 100% gặp vấn đề tôi nói về ... Nó giống như thiên vị biến bỏ qua là có mỗi lần
Josu Momediano

2
Bạn đúng là phải quan tâm. Rất nhiều suy luận dựa trên giả định rằng chúng ta có mô hình thực sự. Tôi đã chạy hồi quy trong một thời gian dài và tôi chưa bao giờ có mô hình thực sự. Đối với mục đích của tôi, hiếm khi có ý nghĩa để thậm chí nghĩ rằng một mô hình thực sự tồn tại. Thay vào đó, hãy tự hỏi mục tiêu của mô hình hóa của bạn là gì (dự đoán trong mẫu, dự đoán ngoài mẫu, ước tính hiệu quả nhân quả trung bình của x3, tóm tắt dữ liệu, v.v.) vì mục tiêu của bạn sẽ chỉ ra chiến lược mô hình nào là tốt nhất.
Michael Giám mục

Câu trả lời:


8

Vấn đề chính ở đây là bản chất của sai lệch biến bị bỏ qua . Wikipedia nêu:

Hai điều kiện phải giữ đúng cho sai lệch biến bị bỏ qua tồn tại trong hồi quy tuyến tính:

  • biến bị bỏ qua phải là một yếu tố quyết định của biến phụ thuộc (nghĩa là hệ số hồi quy thực của nó không bằng 0); và
  • biến bị bỏ qua phải tương quan với một hoặc nhiều biến độc lập được bao gồm (ví dụ cov (z, x) không bằng 0).

Điều quan trọng là phải lưu ý cẩn thận tiêu chí thứ hai. Betas của bạn sẽ chỉ được thiên vị trong một số trường hợp nhất định. Cụ thể, nếu có hai biến đóng góp cho phản hồi tương quan với nhau, nhưng bạn chỉ bao gồm một trong số chúng, thì (về bản chất) các tác động của cả hai sẽ được quy cho biến bao gồm, gây ra sai lệch trong ước tính tham số đó. Vì vậy, có lẽ chỉ một số betas của bạn là thiên vị, không nhất thiết là tất cả chúng.

Một khả năng đáng lo ngại khác là nếu mẫu của bạn không đại diện cho dân số (mà thực tế hiếm khi xảy ra) và bạn bỏ qua một biến có liên quan, ngay cả khi nó không tương thích với các biến khác, điều này có thể gây ra sự dịch chuyển theo chiều dọc làm sai lệch ước tính của bạn về đánh chặn. Ví dụ, hãy tưởng tượng một biến, , tăng mức độ phản hồi và mẫu của bạn được rút ra từ nửa trên của phân phối , nhưng không được bao gồm trong mô hình của bạn. Sau đó, ước tính của bạn về phản ứng trung bình dân số (và đánh chặn) sẽ bị sai lệch cao mặc dù thực tế là không tương thích với các biến khác. Ngoài ra, có khả năng có sự tương tác giữaZ Z Z Z ZZZZZZvà các biến trong mô hình của bạn. Điều này cũng có thể gây ra sai lệch mà không có tương quan với các biến của bạn (tôi sẽ thảo luận về ý tưởng này trong câu trả lời của tôi ở đây .) Z

Bây giờ, cho rằng ở trạng thái cân bằng của nó, mọi thứ cuối cùng đều tương quan với mọi thứ trên thế giới, chúng ta có thể thấy tất cả điều này rất rắc rối. Thật vậy, khi thực hiện nghiên cứu quan sát, tốt nhất là luôn luôn cho rằng mọi biến đều là nội sinh .

Tuy nhiên, có giới hạn cho điều này (cf, Bất đẳng thức của Cornfield ). Đầu tiên, tiến hành các thí nghiệm thực sự phá vỡ mối tương quan giữa một biến đầu mối (điều trị) và bất kỳ biến giải thích nào khác, nhưng không quan sát được. Có một số kỹ thuật thống kê có thể được sử dụng với dữ liệu quan sát để giải thích cho các giới hạn không quan sát được như vậy (nguyên mẫu: hồi quy biến công cụ , nhưng cũng có thể khác).

Đặt những khả năng này sang một bên (có lẽ chúng đại diện cho một thiểu số các phương pháp mô hình hóa), triển vọng dài hạn cho khoa học là gì? Điều này phụ thuộc vào mức độ sai lệch và khối lượng nghiên cứu khám phá được thực hiện. Ngay cả khi các con số có phần tắt, chúng thường có thể ở trong khu phố và đủ gần để các mối quan hệ có thể được phát hiện. Sau đó, về lâu dài, các nhà nghiên cứu có thể trở nên rõ ràng hơn về các biến có liên quan. Thật vậy, các nhà lập mô hình đôi khi đánh đổi một cách rõ ràng sự thiên vị tăng lên để giảm phương sai trong phân phối lấy mẫu các tham số của họ (cf, câu trả lời của tôi ở đây ). Trong ngắn hạn, đáng để luôn nhớ đến câu nói nổi tiếng từ Box:

Tất cả các mô hình đều sai, nhưng một số hữu ích.

Ngoài ra còn có một câu hỏi triết học tiềm năng sâu sắc hơn ở đây: Điều đó có nghĩa là ước tính đang bị sai lệch? Điều gì được cho là câu trả lời 'chính xác'? Nếu bạn thu thập một số dữ liệu quan sát về mối liên hệ giữa hai biến (gọi chúng là & ), thì cuối cùng bạn nhận được mối tương quan cận biên giữa hai biến đó. Đây chỉ là con số 'sai' nếu bạn nghĩ rằng bạn đang làm một việc khác và thay vào đó là liên kết trực tiếp. Tương tự như vậy, trong một nghiên cứu để phát triển một mô hình dự đoán, điều bạn quan tâm là liệu trong tương lai, bạn có thể đoán chính xác giá trị của một chưa biết từ một biết hay không . Nếu bạn có thể, nó không thành vấn đề nếu đó là (một phần) bởi vìXYYXXtương quan với được đóng góp vào giá trị kết quả của . Bạn muốn có thể dự đoán , và bạn có thể. ZYY

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.