Điều gì xảy ra nếu tương tác xóa sạch ảnh hưởng trực tiếp của tôi trong hồi quy?

25

Trong một hồi quy, thuật ngữ tương tác xóa sạch cả hai hiệu ứng trực tiếp liên quan. Tôi có làm rơi tương tác hoặc báo cáo kết quả không? Sự tương tác không phải là một phần của giả thuyết ban đầu.

regression interaction

— Jen
nguồn

6

bạn có thể có được câu trả lời tốt hơn nếu bạn cung cấp thêm chi tiết về thiết kế thử nghiệm, câu hỏi nghiên cứu và mô hình thống kê của bạn.

— David LeBauer

Tôi có dữ liệu khảo sát, v1 và v2 dự đoán kết quả, như tôi mong đợi; tuy nhiên, sự tương tác giữa v1 (lưỡng phân) và v2 (5 nhóm) là không đáng kể - và (câu hỏi của tôi) nó làm cho hiệu ứng trực tiếp v1 và v2 của tôi không đáng kể. Tôi không thể tìm thấy một ví dụ về báo cáo này trong tài liệu.

— Jen

Nếu tương tác v1: v2 không đáng kể, bạn có cần đưa nó vào mô hình không?

— Christopher Aden

Có lẽ câu hỏi này có liên quan? stats.stackexchange.com/questions/5184/ Mạnh

— Glen

Một khả năng khác là nghịch lý nhiễu: Ví dụ 1: epm.sagepub.com/content/56/3/430.abstract Ví dụ 2: optimalprediction.com/files/pdf/V1A19.pdf

— user31256

24

Tôi nghĩ rằng điều này là khó khăn; như bạn gợi ý, có "rủi ro đạo đức" ở đây: nếu bạn chưa xem xét sự tương tác, bạn sẽ được tự do và rõ ràng, nhưng bây giờ bạn có sự nghi ngờ về việc nạo vét dữ liệu nếu bạn bỏ nó.

Chìa khóa có lẽ là một sự thay đổi về ý nghĩa của các hiệu ứng của bạn khi bạn chuyển từ chỉ hiệu ứng chính sang mô hình tương tác. Những gì bạn nhận được cho "các hiệu ứng chính" phụ thuộc rất nhiều vào cách điều trị và độ tương phản của bạn được mã hóa. Trong R, mặc định là điều trị tương phản với các cấp yếu tố đầu tiên (những yếu tố có tên đầu tiên theo thứ tự bảng chữ cái trừ khi bạn đã hết cách để mã hóa chúng theo cách khác nhau) làm các mức cơ sở.

Nói (để đơn giản) rằng bạn có hai cấp độ, 'kiểm soát' và 'trt', cho từng yếu tố. Không có sự tương tác, ý nghĩa của tham số 'v1.trt' (giả sử điều trị tương phản như mặc định trong R) là "sự khác biệt trung bình giữa nhóm 'v1.control' và 'v1.trt'; ý nghĩa của tham số 'v2.trt' là "sự khác biệt trung bình giữa 'v2.control' và 'v2.trt'".

Với sự tương tác, 'v1.trt' là sự khác biệt trung bình giữa 'v1.control' và 'v1.trt' trong nhóm 'v2.control' và tương tự 'v2.trt' là sự khác biệt trung bình giữa các nhóm v2 trong Nhóm 'v1.control'. Do đó, nếu bạn có hiệu quả điều trị khá nhỏ trong mỗi nhóm đối chứng, nhưng hiệu quả lớn trong các nhóm điều trị, bạn có thể dễ dàng nhìn thấy những gì bạn đang thấy.

Tuy nhiên, cách duy nhất tôi có thể thấy điều này xảy ra mà không có thuật ngữ tương tác đáng kể, tuy nhiên, là nếu tất cả các hiệu ứng khá yếu (do đó, điều bạn thực sự muốn nói là "hiệu ứng biến mất" là bạn đã đi từ p = 0,06 đến p = 0,04, trên dòng ý nghĩa kỳ diệu).

Một khả năng khác là bạn đang 'sử dụng quá nhiều bậc tự do' - nghĩa là các ước tính tham số không thực sự thay đổi nhiều, nhưng thuật ngữ lỗi còn lại được thổi phồng đủ bằng cách ước tính thêm 4 [= (2- 1) * (5-1)] tham số mà các thuật ngữ quan trọng của bạn trở nên không đáng kể. Một lần nữa, tôi chỉ mong đợi điều này với một tập dữ liệu nhỏ / hiệu ứng tương đối yếu.

Một giải pháp khả thi là chuyển sang độ tương phản, mặc dù điều này cũng rất tế nhị - bạn phải tin rằng 'hiệu ứng trung bình' có ý nghĩa trong trường hợp của bạn. Điều tốt nhất là vẽ biểu đồ dữ liệu của bạn và xem xét các hệ số và hiểu những gì đang xảy ra theo các tham số ước tính.

Mong rằng sẽ giúp.

— Ben Bolker
nguồn

4

Không có rủi ro đạo đức. Việc tính toán các hiệu ứng chính với sự tương tác đi kèm hoàn toàn khác với tính toán không có nó. Bạn phải thực hiện mô hình phụ gia để báo cáo các hiệu ứng chính và sau đó bao gồm sự tương tác trong một mô hình riêng biệt. Bạn bỏ qua các hiệu ứng chính trong mô hình bao gồm tương tác vì chúng không thực sự là hiệu ứng chính, chúng là hiệu ứng ở các mức cụ thể của các yếu tố dự đoán khác (bao gồm cả tương tác).

— John

John: một người, theo logic đó, cũng sẽ bỏ qua thuật ngữ tương tác trong một mô hình đánh giá hiệu ứng tương tác / kiểm duyệt bậc hai (nghĩa là bao gồm (1) các hiệu ứng chính, (2) tương tác giữa các hiệu ứng chính đó và (3) một thuật ngữ bậc hai cho một trong những hiệu ứng chính và hiệu ứng tương tác curvilinear (điều độ))?

— Bento

11

$X_1$ $X_2$

Y = β_{0} + β_{12} X_{1} X_{2} + ϵ

$Y = \beta_0 + \beta_{12} X_1 X_2 + \epsilon$

$Y$

Y = β_{0} + (β_{12} X_{1} X_{2}) δ

$Y = \beta_0 + \left( \beta_{12} X_1 X_2 \right) \delta$

Điều này có thể được viết lại

đăng nhập (Y - β_{0}) = = đăng nhập (β_{12}) + đăng nhập (X_{1}) + đăng nhập (X_{2}) + đăng nhập (δ);

$\log(Y - \beta_0) = \log(\beta_{12}) + \log(X_1) + \log(X_2) + \log(\delta);$

đó là, nếu bạn thể hiện lại các biến của mình dưới dạng

\begin{aligned} η = = & đăng nhập (Y - β_{0}) \\ ξ_{1} = = & đăng nhập (X_{1}) \\ ξ_{2} = = & đăng nhập (X_{2}) \\ ζ = = & đăng nhập (δ) ~ N (0, σ^{2}) \end{aligned}

$\eqalign{ \eta =& \log(Y - \beta_0) \cr \xi_1 =& \log(X_1)\cr \xi_2 =& \log(X_2)\cr \zeta =& \log(\delta) \sim N(0, \sigma^2) }$

sau đó mô hình là tuyến tính và có khả năng có phần dư homoscedastic:

η = = γ_{0} + γ_{1} ξ_{1} + γ_{2} ξ_{2} + ζ,

$\eta = \gamma_0 + \gamma_1 \xi_1 + \gamma_2 \xi_2 + \zeta,$

$\gamma_1$ $\gamma_2$

$\beta_0$ $Y$

$\beta_0$ $\sqrt{\beta_0}$

Y = = (θ_{1} + X_{1}) (θ_{2} + X_{2}) + ε

$Y = (\theta_1 + X_1) (\theta_2 + X_2) + \epsilon$

$\theta_1 \theta_2 = \beta_0$ $\theta_1$ $\theta_2$ $\theta_1 X_2$ $\theta_2 X_1$ $\epsilon$

Phân tích này cho thấy làm thế nào có thể - thậm chí có khả năng trong một số ứng dụng - có một mô hình trong đó các hiệu ứng duy nhất dường như là tương tác. Điều này phát sinh khi các biến (độc lập, phụ thuộc hoặc cả hai) được trình bày cho bạn ở dạng không phù hợp và logarit của chúng là mục tiêu hiệu quả hơn cho mô hình hóa. Các phân phối của các biến và phần dư ban đầu cung cấp các manh mối cần thiết để xác định xem đây có phải là trường hợp không: phân phối sai của các biến và độ không đồng nhất của phần dư (cụ thể là có các phương sai tỷ lệ thuận với các giá trị dự đoán) là các chỉ số.

— whuber
nguồn

Hừm. Tất cả điều này có vẻ hợp lý nhưng phức tạp hơn giải pháp của tôi (các ý kiến về câu hỏi ban đầu cho thấy rằng các dự đoán đều là phân loại). Nhưng như thường lệ, câu trả lời là "nhìn vào dữ liệu" (hoặc phần dư).

— Ben Bolker

1

@Ben Tôi đồng ý nhưng tôi không hiểu nhận thức về "phức tạp hơn" đến từ đâu, bởi vì phân tích phân phối đơn biến và phân tích hậu hoc của phần dư là rất cần thiết trong bất kỳ bài tập hồi quy nào. Công việc bổ sung duy nhất cần có ở đây là suy nghĩ về ý nghĩa của những phân tích này.

— whuber

1

Có lẽ bởi "phức tạp hơn" tôi chỉ có nghĩa là "Theo kinh nghiệm của tôi, tôi đã thấy các vấn đề tôi đề cập trong câu trả lời của tôi (mã hóa tương phản) phát sinh thường xuyên hơn so với những gì bạn đã đề cập (không gây nghiện)" - nhưng đây thực sự là một tuyên bố về các loại dữ liệu / người tôi làm việc cùng chứ không phải về thế giới.

— Ben Bolker

5

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 \cdot X_2) = (b_0 + b_2 X_2) + (b_1 + b_3 X_2) X_1$

Điều này thường giới thiệu tính đa hình cao vì sản phẩm sẽ tương quan mạnh với cả hai biến ban đầu. Với tính đa hướng, các ước tính tham số riêng lẻ phụ thuộc mạnh mẽ vào các biến khác được xem xét - như trong trường hợp của bạn. Là một biện pháp đối trọng, việc định tâm các biến thường làm giảm tính đa hình khi xem xét sự tương tác.

Tôi không chắc chắn nếu điều này áp dụng trực tiếp vào trường hợp của bạn vì bạn dường như có các dự đoán phân loại nhưng sử dụng thuật ngữ "hồi quy" thay vì "ANOVA". Tất nhiên trường hợp sau về cơ bản là cùng một mô hình, nhưng chỉ sau khi chọn sơ đồ mã hóa tương phản như Ben giải thích.

— caracal
nguồn

5

Đây có thể là một vấn đề về giải thích, một sự hiểu lầm về cái gọi là hệ số "hiệu ứng trực tiếp" thực sự là gì.

Trong các mô hình hồi quy có các biến dự báo liên tục và không có thuật ngữ tương tác - nghĩa là không có thuật ngữ nào được xây dựng như sản phẩm của các thuật ngữ khác - mỗi hệ số của biến là độ dốc của bề mặt hồi quy theo hướng của biến đó. Nó là hằng số, bất kể giá trị của các biến và rõ ràng là thước đo tác động của biến đó.

Trong các mô hình có tương tác - nghĩa là, với các thuật ngữ được xây dựng như các sản phẩm của các thuật ngữ khác - việc giải thích đó có thể được thực hiện mà không cần chứng nhận thêm cho các biến không liên quan đến bất kỳ tương tác nào. Hệ số của một biến mà được tham gia vào các tương tác là độ dốc của bề mặt hồi quy theo hướng biến mà khi các giá trị của tất cả các biến tương tác với các biến trong câu hỏi là zero , và thử nghiệm ý nghĩa của hệ số dùng để chỉ độ dốc của bề mặt hồi quy chỉ trong vùng đó của không gian dự đoán. Do không có yêu cầu thực sự có dữ liệu trong vùng không gian đó, nên hệ số hiệu ứng trực tiếp rõ ràng có thể có chút tương đồng với độ dốc của bề mặt hồi quy trong khu vực của không gian dự đoán nơi dữ liệu được quan sát thực sự. Không có "hiệu quả trực tiếp" thực sự trong những trường hợp như vậy; thay thế tốt nhất có lẽ là "hiệu ứng trung bình": độ dốc của bề mặt hồi quy theo hướng của biến được đề cập, được lấy tại mỗi điểm dữ liệu và tính trung bình trên tất cả các điểm dữ liệu. Để biết thêm về điều này, hãy xem Tại sao các biến độc lập tập trung có thể thay đổi các hiệu ứng chính với kiểm duyệt?

— Ray Koopman
nguồn