Các hệ số hồi quy mà lật dấu sau khi bao gồm các yếu tố dự đoán khác


31

Hãy tưởng tượng

  • Bạn chạy hồi quy tuyến tính với bốn bộ dự báo số (IV1, ..., IV4)
  • Khi chỉ có IV1 được đưa vào làm công cụ dự đoán, beta được chuẩn hóa là +.20
  • Khi bạn cũng bao gồm IV2 đến IV4, dấu hiệu của hệ số hồi quy được tiêu chuẩn hóa của IV1 chuyển sang -.25(nghĩa là nó trở thành âm).

Điều này dẫn đến một vài câu hỏi:

  • Liên quan đến thuật ngữ, bạn có gọi đây là "hiệu ứng triệt tiêu" không?
  • Những chiến lược nào bạn sẽ sử dụng để giải thích và hiểu hiệu ứng này?
  • Bạn có bất kỳ ví dụ về các hiệu ứng như vậy trong thực tế và làm thế nào bạn giải thích và hiểu những hiệu ứng này?

Làm thế nào bạn sẽ giải thích một tình huống trong đó các hệ số thay đổi các dấu hiệu khi bao gồm các yếu tố dự đoán nhưng chắc chắn không có bất kỳ sự đa hình nào liên quan (như các giá trị VIF thấp sẽ đề xuất)? Thật thú vị, mặc dù, khi bao gồm các yếu tố dự đoán, dấu hiệu đã thay đổi thành những gì tôi dự kiến ​​ban đầu là (tích cực). Đó là âm trong một hồi quy biến độc lập đơn giản (ma trận tương quan cho thấy mối tương quan âm tối thiểu với biến phụ thuộc) nhưng ngay lập tức chuyển sang dương với các yếu tố dự đoán khác.

@John bạn có thể xóa bình luận của bạn và gửi câu hỏi của bạn dưới dạng một câu hỏi riêng biệt trên trang web này (nghĩa là sử dụng "đặt câu hỏi lên đầu". Nếu bạn cảm thấy câu hỏi của mình có liên quan đến câu hỏi này, hãy thêm một liên kết đến câu hỏi này trong câu hỏi mới của bạn.
Jeromy Anglim

2
Một bài báo tôi đã viết với Seth Dutter có thể giúp làm rõ mọi chuyện. Nó được viết chủ yếu từ góc độ hình học. Đây là đường dẫn: arxiv.org/abs/1503.02722 . -Brian Knaeble, B., & Dutter, S. (2015). Sự đảo ngược của ước tính tối thiểu bình phương và ước lượng độc lập mô hình cho các hướng của hiệu ứng duy nhất. bản in sẵn arXiv arXiv: 1503.02722.

Câu trả lời:


26

Multicollinearity là nghi phạm thông thường như JoFrhwld đã đề cập. Về cơ bản, nếu các biến của bạn có tương quan dương, thì các hệ số sẽ có tương quan nghịch, điều này có thể dẫn đến một dấu hiệu sai trên một trong các hệ số.

Một kiểm tra sẽ là thực hiện hồi quy thành phần chính hoặc hồi quy sườn. Điều này làm giảm tính chiều của không gian hồi quy, xử lý tính đa hình. Bạn kết thúc với ước tính sai lệch nhưng có thể là MSE thấp hơn và các dấu hiệu đã được sửa. Cho dù bạn có đi với những kết quả cụ thể đó hay không, đó là một kiểm tra chẩn đoán tốt. Nếu bạn vẫn nhận được thay đổi dấu hiệu, nó có thể là lý thuyết thú vị.

CẬP NHẬT

Theo nhận xét trong câu trả lời của John Christie, điều này có thể thú vị. Sự đảo ngược trong liên kết (cường độ hoặc hướng) là những ví dụ về Nghịch lý của Simpson, Nghịch lý và Hiệu ứng đàn áp của Chúa. Sự khác biệt về cơ bản liên quan đến loại biến. Tìm hiểu hiện tượng cơ bản hơn là suy nghĩ về một "nghịch lý" hay hiệu ứng cụ thể. Đối với quan điểm nhân quả, bài viết dưới đây thực hiện tốt việc giải thích lý do tại sao và tôi sẽ trích dẫn dài dòng giới thiệu và kết luận của họ để kích thích sự thèm ăn của bạn.

Tu et al trình bày một phân tích về sự tương đương của ba nghịch lý, kết luận rằng cả ba chỉ đơn giản nhắc lại sự thay đổi không đáng ngạc nhiên trong mối liên hệ của bất kỳ hai biến nào khi một biến thứ ba được kiểm soát theo thống kê. Tôi gọi điều này là không ngạc nhiên vì sự đảo ngược hoặc thay đổi cường độ là phổ biến trong phân tích có điều kiện. Để tránh một trong hai, chúng ta phải tránh phân tích có điều kiện hoàn toàn. Điều gì về nghịch lý của Simpson và Lord hay hiệu ứng đàn áp, ngoài việc họ chỉ ra điều hiển nhiên, thu hút những lợi ích gián đoạn và đôi khi đáng báo động được thấy trong tài liệu?

[...]

Tóm lại, không thể nhấn mạnh rằng mặc dù những nghịch lý của Simpson và những điều liên quan bộc lộ những nguy cơ của việc sử dụng các tiêu chí thống kê để hướng dẫn phân tích nguyên nhân, họ không nắm giữ những giải thích về hiện tượng mà họ cố tình miêu tả cũng như chỉ ra cách tránh. Các giải thích và giải pháp nằm trong lý luận nhân quả dựa trên kiến ​​thức nền tảng, không phải tiêu chí thống kê. Đã đến lúc chúng ta ngừng điều trị các dấu hiệu và triệu chứng bị hiểu sai ('nghịch lý'), và bắt tay vào công việc xử lý căn bệnh này ('nguyên nhân'). Chúng ta nên chuyển sự chú ý của mình sang vấn đề lâu năm về lựa chọn đồng biến để phân tích nguyên nhân bằng cách sử dụng dữ liệu phi thực nghiệm.


1
Cảm ơn lời đề nghị khám phá sườn núi hoặc hồi quy PCA. Chỉ là một điểm phụ liên quan đến nhận xét của bạn "nếu các biến của bạn có tương quan dương, thì các hệ số sẽ có tương quan nghịch dẫn đến đảo ngược dấu hiệu.": Các dự đoán tương quan tích cực thường không dẫn đến đảo ngược dấu hiệu.
Jeromy Anglim

Xin lỗi, đó là một lời giải thích sai lầm được viết một cách vội vàng. Đã sửa bây giờ, cảm ơn.
ars

Điểm tuyệt vời về tầm quan trọng của các cơ chế nhân quả.
Jeromy Anglim

14

Tôi tin rằng các hiệu ứng như thế này thường được gây ra bởi cộng tuyến (xem câu hỏi này ). Tôi nghĩ rằng cuốn sách về mô hình đa cấp của Gelman và Hill nói về nó. Vấn đề là IV1tương quan với một hoặc nhiều dự đoán khác và khi tất cả chúng được đưa vào mô hình, ước tính của chúng trở nên thất thường.

Nếu hệ số lật là do cộng tuyến, thì nó không thực sự thú vị để báo cáo, bởi vì đó không phải là do mối quan hệ giữa các yếu tố dự đoán của bạn với kết quả, mà thực sự là do mối quan hệ giữa các yếu tố dự đoán.

Những gì tôi đã thấy đề xuất để giải quyết vấn đề này là dư. Đầu tiên, bạn phù hợp với một mô hình cho IV2 ~ IV1, sau đó lấy phần dư của mô hình đó làm rIV2. Nếu tất cả các biến của bạn là tương quan, bạn thực sự nên dư tất cả chúng. Bạn có thể chọn làm như vậy

rIV2 <- resid(IV2 ~ IV1)
rIV3 <- resid(IV3 ~ IV1 + rIV2)
rIV4 <- resid(IV4 ~ IV1 + rIV2 + rIV3)

Bây giờ, phù hợp với mô hình cuối cùng với

DV ~ IV1 + rIV2 + rIV3 + rIV4

Bây giờ, hệ số rIV2biểu thị hiệu ứng độc lập của IV2mối tương quan với nó IV1. Tôi đã nghe nói bạn sẽ không nhận được kết quả tương tự nếu bạn tồn tại theo một thứ tự khác và việc chọn thứ tự còn lại thực sự là một lời kêu gọi phán xét trong nghiên cứu của bạn.


Cảm ơn câu trả lời. Tôi đã có những suy nghĩ này. (a) Đa sắc thái: Tôi đồng ý. Wihtout nó, các hệ số không nên thay đổi. (b) Có thú vị không? Tôi thực sự nghĩ rằng việc lật dấu hiệu có thể có những diễn giải lý thuyết thú vị trong một số trường hợp; nhưng có lẽ không phải từ một quan điểm dự đoán thuần túy. (c) Định cư: Tôi rất muốn nghe người khác nghĩ gì về phương pháp này.
Jeromy Anglim

Tôi không chắc chắn nếu đa hướng có thể thú vị. Giả sử bạn đã có một số kết quả O, và những người dự đoán của bạn là IncomeFather's Income. Thực tế có Incometương quan với Father's Incomebản chất là thú vị, nhưng thực tế đó sẽ là sự thật bất kể giá trị của O. Đó là, bạn có thể thiết lập Ocác dự đoán đó là tất cả các cộng tuyến mà không bao giờ thu thập dữ liệu kết quả của bạn, hoặc thậm chí không biết kết quả là gì! Những sự thật đó không nên đặc biệt thú vị hơn một khi bạn biết điều đó Othực sự Education.
JoFrhwld

Tôi đang đề xuất rằng hiệu ứng triệt tiêu có thể thú vị về mặt lý thuyết, trong đó có lẽ là đa hướng cung cấp một điểm khởi đầu cho một lời giải thích.
Jeromy Anglim

5

Xem Nghịch lý của Simpson . Nói tóm lại, hiệu ứng chính được quan sát có thể đảo ngược khi một tương tác được thêm vào mô hình. Tại trang được liên kết hầu hết các ví dụ là phân loại nhưng có một con số ở đầu trang người ta có thể tưởng tượng liên tục. Ví dụ: nếu bạn có một công cụ dự báo phân loại và liên tục thì công cụ dự đoán liên tục có thể dễ dàng lật dấu hiệu nếu một công cụ phân loại được thêm vào và trong mỗi danh mục, dấu hiệu này khác với điểm tổng thể.


Điểm tốt. Tất cả các ví dụ về Nghịch lý của Simpson áp dụng cho các biến phân loại. Là khái niệm của một biến supressor tương đương số?
Jeromy Anglim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.