Mối quan hệ tuyến tính giữa các biến giải thích trong hồi quy bội


10

Tôi đã đọc chương hồi quy của Phân tích dữ liệu và Đồ họa bằng R: Cách tiếp cận dựa trên ví dụ và hơi bối rối khi biết rằng nó khuyên bạn nên kiểm tra mối quan hệ tuyến tính giữa các biến giải thích (sử dụng biểu đồ phân tán) và, trong trường hợp có aren ' t bất kỳ, chuyển họ để họ làm trở tuyến tính hơn có liên quan. Dưới đây là một số trích đoạn này:

6.3 Chiến lược phù hợp với nhiều mô hình hồi quy

(...)

Kiểm tra ma trận phân tán liên quan đến tất cả các biến giải thích. (Bao gồm cả biến phụ thuộc là, tại thời điểm này, là tùy chọn. ) Trước tiên hãy tìm bằng chứng về tính phi tuyến tính trong các lô của các biến giải thích đối với nhau.

(...)

Điểm này xác định chiến lược tìm kiếm mô hình - tìm kiếm các mô hình trong đó mối quan hệ hồi quy giữa các biến giải thích theo dạng tuyến tính "đơn giản" . Do đó, nếu một số sơ đồ cặp cho thấy bằng chứng về tính phi tuyến tính, hãy xem xét sử dụng (các) phép biến đổi để đưa ra các mối quan hệ gần như tuyến tính hơn . Mặc dù có thể không nhất thiết phải chứng minh là có thể, theo chiến lược này, để mô hình hóa đầy đủ mối quan hệ hồi quy, đây là một chiến lược tốt, vì những lý do được đưa ra dưới đây, để bắt đầu tìm kiếm.

(...)

Nếu mối quan hệ giữa các biến giải thích xấp xỉ tuyến tính, có lẽ sau khi biến đổi, thì có thể giải thích các sơ đồ của các biến dự đoán dựa vào biến trả lời một cách tự tin.

(...)

Có thể không thể tìm thấy các phép biến đổi của một hoặc nhiều biến giải thích để đảm bảo các mối quan hệ (cặp) được hiển thị trong các bảng xuất hiện tuyến tính. Điều này có thể tạo ra các vấn đề cả cho việc giải thích các sơ đồ chẩn đoán cho bất kỳ phương trình hồi quy được trang bị nào và cho việc giải thích các hệ số trong phương trình phù hợp. Xem Cook và Weisberg (1999).

Tôi không nên lo lắng về mối quan hệ tuyến tính giữa các biến phụ thuộc (vì nguy cơ đa cộng đồng) thay vì chủ động theo đuổi chúng? Những lợi thế của việc có các biến liên quan tuyến tính là gì?

Các tác giả đã giải quyết vấn đề về đa cộng đồng sau này trong chương này, nhưng các khuyến nghị này dường như có mâu thuẫn với việc tránh đa cộng đồng.

Câu trả lời:


8

Có hai điểm ở đây:

  1. Đoạn văn khuyến nghị chuyển IV thành tuyến tính chỉ khi có bằng chứng về phi tuyến. Mối quan hệ phi tuyến giữa các IV cũng có thể gây ra sự cộng tác và tập trung hơn, có thể làm phức tạp các mối quan hệ khác. Tôi không chắc chắn tôi đồng ý với lời khuyên trong cuốn sách, nhưng nó không ngớ ngẩn.

  2. Chắc chắn các mối quan hệ tuyến tính rất mạnh có thể là nguyên nhân của cộng tuyến, nhưng tương quan cao là không cần thiết và không đủ để gây ra sự va chạm có vấn đề. Một phương pháp tốt để chẩn đoán cộng tuyến là chỉ số điều kiện.

EDIT để trả lời bình luận

Các chỉ số điều kiện được mô tả ngắn gọn ở đây là "căn bậc hai của giá trị riêng tối đa chia cho giá trị riêng tối thiểu". Có khá nhiều bài viết ở đây trên CV thảo luận về họ và giá trị của họ. Các văn bản tinh dịch về chúng là hai cuốn sách của David Belsley: Chẩn đoán điều hòaChẩn đoán hồi quy (cũng có phiên bản mới, 2005,).


1
+1 - câu trả lời tốt nhưng bạn có thể mở rộng về chỉ số điều kiện không? Tôi vẫn chưa tìm thấy một phương tiện thỏa đáng để xử lý sự cộng tác trong các biến giải thích của ứng viên.
BGreene

Cảm ơn bạn đã trả lời thông tin. Bạn có thể vui lòng giải thích những gì các mối quan hệ khác là phức tạp bởi phi tuyến tính giữa expl. biến? Và bạn có biết những gì các tác giả đang nói về khi họ nói rằng mối quan hệ phi tuyến tính giữa expl. các biến có thể gây ra vấn đề với việc giải thích các hệ số và sơ đồ chẩn đoán?
RicardoC

Tôi không thể đưa ra một ví dụ ngay bây giờ, nhưng tôi đã thấy nó xảy ra. Có vẻ như có mối quan hệ phi tuyến giữa Y và X
Peter Flom - Rebstate Monica

3

Quan hệ tuyến tính giữa mỗi biến giải thích và biến phụ thuộc cũng sẽ đảm bảo mối quan hệ tuyến tính giữa các biến giải thích. Điều ngược lại tất nhiên không đúng.

Đúng là (các) phép biến đổi được thiết kế để cung cấp độ tuyến tính gần đúng sẽ làm tăng tính cộng tuyến. Tuy nhiên, trong trường hợp không có (các) phép biến đổi như vậy, thì sự cộng tuyến bị ẩn đi. Việc khăng khăng giữ collinearlity do đó ẩn có thể dẫn đến một phương trình hồi quy phức tạp và không thể giải thích được, trong đó có sẵn một dạng phương trình đơn giản.

Giả sử ygần với hàm tuyến tính của log(x1), trong trường hợp xphạm vi trên các giá trị khác nhau theo hệ số 10 trở lên. Sau đó, nếu xđược sử dụng như một biến hồi quy, các biến giải thích khác sẽ được gọi để giải thích cho tính phi tuyến trong mối quan hệ với x1. Kết quả có thể là một mối quan hệ hồi quy rất phức tạp, với các hệ số không thể giải thích được, thay cho một dạng phương trình hồi quy đơn giản, nắm bắt tất cả các khả năng giải thích có sẵn.

Những hậu quả kỳ lạ có thể xảy ra do không tìm thấy và làm việc với các biến liên quan tuyến tính đã được minh họa rõ ràng trong bài báo gần đây tuyên bố tính hiệu quả của cơn bão trong dữ liệu về những cái chết từ 94 cơn bão Đại Tây Dương đổ bộ vào Hoa Kỳ trong những năm 1950-2012. Xem http://www.pnas.org/content/111/24/8782.abab . Các dữ liệu có sẵn như là một phần của thông tin bổ sung. Lưu ý rằng làm việc với log(deaths)và sử dụng mô hình tuyến tính lý thuyết NormaL (hàm R lm()) gần tương đương với việc sử dụng mô hình hồi quy nhị thức âm của Jung et al.

Nếu một hồi quy log(E[deaths])trên log(NDAM), không còn gì cho biến áp suất tối thiểu, biến nữ tính và các tương tác, để giải thích. Biến log(NDAM), không NDAM, xuất hiện trong ma trận phân tán dưới dạng liên quan tuyến tính với biến áp suất tối thiểu. Phân phối của nó cũng ít lệch hơn nhiều, gần với đối xứng hơn.

Jung et al thụt lùi log(E[deaths])trên NDAM(thiệt hại bình thường), cộng với các biến và tương tác khác. Phương trình sau đó nổi lên được sử dụng để kể một câu chuyện trong đó tính nữ tính của cái tên có ảnh hưởng lớn.

Để xem mức độ kỳ lạ của nó là sử dụng NDAMnhư một biến giải thích trong hồi quy trong đó biến kết quả là log(E[deaths]), biểu đồ log(deaths+0.5)hoặc log(deaths+1)chống lại NDAM. Sau đó lặp lại cốt truyện với log(NDAM)thay thế NDAM. Sự tương phản thậm chí còn nổi bật hơn nếu Katrina và Audrey, mà Jung et al bỏ qua như những kẻ ngoại phạm, được đưa vào cốt truyện. Bằng cách nhấn mạnh vào việc sử dụng NDAMnhư là biến giải thích, thay vì log(NDAM), Jung et al đã bỏ qua cơ hội để tìm ra một hình thức quan hệ hồi quy rất đơn giản.

NB đó E[deaths]là số người chết được dự đoán bởi mô hình.

Trong dữ liệu của Jung et al, các phép biến đổi cần thiết có thể được xác định từ một ma trận phân tán của tất cả các biến. Có lẽ hãy thử chức năng R spm()trong bản phát hành mới nhất của gói xe dành cho R, với transform=TRUEvà (với deathstư cách là một biến) family="yjPower". Hoặc thử nghiệm với các biến đổi được đề xuất bởi ma trận phân tán ban đầu. Nói chung, lời khuyên ưa thích có thể là trước tiên hãy tìm các biến giải thích thỏa mãn yêu cầu dự đoán tuyến tính, sau đó tham gia vào biến kết quả, có thể sử dụng chức năng xe hơi invTranPlot().

Xem, ngoài "Phân tích dữ liệu và đồ họa sử dụng R" được người hỏi tham khảo:

  • Weisberg: Ứng dụng hồi quy tuyến tính. Lần thứ 4, Wiley 2014, tr.185-203.
  • Fox và Weisberg: Một người bạn đồng hành R với hồi quy ứng dụng. Lần 2, Sage, 2011, tr.127-148.

1

Tôi thấy toàn bộ đoạn văn này khá khó hiểu nếu không hoàn toàn nghi ngờ. Lý tưởng nhất là bạn muốn các biến độc lập của mình không bị biến đổi nhất có thể với nhau để cung cấp thông tin bổ sung và bổ sung cho mô hình trong việc ước tính biến phụ thuộc. Bạn nêu vấn đề về đa cộng đồng thông qua mối tương quan cao giữa các biến độc lập và bạn hoàn toàn đúng khi nêu vấn đề đó trong tình huống này.

Điều quan trọng hơn là kiểm tra biểu đồ phân tán và mối quan hệ tuyến tính liên quan giữa mỗi biến độc lập và biến phụ thuộc, nhưng không phải giữa các biến độc lập. Khi xem xét các biểu đồ phân tán như vậy (độc lập trên trục X và phụ thuộc vào trục Y) tại thời điểm đó, có thể có cơ hội để biến đổi biến độc lập để quan sát sự phù hợp tốt hơn cho dù đó là thông qua nhật ký, dạng lũy ​​thừa hoặc đa thức.


1
Trong câu thứ 2 của bạn: Nếu các biến độc lập hoàn toàn không tương quan, thì phần lớn lý do cho hồi quy sẽ trở thành mô phỏng. Mỗi mối quan hệ hai biến của một yếu tố dự đoán với Y sẽ hiển thị giống như mối quan hệ khi tất cả các yếu tố dự đoán khác được kiểm soát. Trong trường hợp đó, tại sao phải kiểm soát?
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.