Trong hồi quy bội, tại sao các tương tác được mô hình hóa thành các sản phẩm, mà không phải là thứ gì khác, của các yếu tố dự đoán?

Xem xét nhiều hồi quy tuyến tính. Câu hỏi này có thể đơn giản về mặt giả định, nhưng tôi đang cố gắng hiểu trực giác tại sao, giả sử nếu tôi có các yếu tố dự đoán X1 và X2, thì các tương tác giữa các yếu tố dự đoán này có thể được X1 * X2 nắm bắt một cách đầy đủ.

Tôi biết các thuật ngữ tương tác được mô hình hóa như các sản phẩm, chỉ vì đó là những gì tôi được dạy ở trường và đó là những gì mọi người nói phải làm. Tôi đoán có thể có một số đối số hình học.

Nhưng tại sao một sản phẩm (có thể nói là hai tính năng số, và không phải là sự phức tạp thêm của việc nhân với một biến là một biến giả trong khi một sản phẩm khác là số, v.v.) sẽ nắm bắt tương tác đầy đủ?

Tại sao "không tương tác" tốt nhất được chụp bởi một f (X1, X2) khác theo mặc định thay vì X1 * X2 cụ thể?

Tôi có thể thấy ý tưởng rằng X1 * X2 có thể nắm bắt các tình huống trong đó các dấu hiệu của X1 và X2 có giống nhau hay không, nhưng tại sao các tương tác mặc định sẽ không được mô hình hóa bằng cách nói f (X1, X2) = dấu (X1) ) * ký (X2) thay vì f (X1, X2) = X1X2?

Tôi nhận ra rằng tôi có thể thêm bất kỳ f (X1, X2) nào khác vào hồi quy hoặc bất kỳ mô hình dự đoán nào, nhưng việc tìm ra hình dạng chính xác của các tương tác bằng mã hóa tay là tốn thời gian. Làm thế nào để tôi biết X1X2 là một phỏng đoán đầu tiên tốt?

multiple-regression feature-selection interaction

— Dự án Chilli
nguồn

Chúng ta có thể hình dung một "tương tác" giữa các biến hồi quy và như một sự khởi đầu từ một mối quan hệ tuyến tính hoàn hảo $x_1$ $x_2$ trong đó mối quan hệ giữa một biến hồi quy và đáp ứng là khác nhau đối với các giá trị khác nhau của các biến hồi quy khác. "Thuật ngữ tương tác" thông thường, theo nghĩa được giải thích dưới đây, là một "khởi hành" đơn giản nhất như vậy.

Định nghĩa và khái niệm

"Mối quan hệ tuyến tính" đơn giản có nghĩa là mô hình thông thường trong đó chúng tôi cho rằng phản hồi khác với kết hợp tuyến tính của (và hằng số) bởi các lỗi độc lập, không có nghĩa là $Y$ $x_i$ $\varepsilon:$

\begin{matrix} (*) & Y = = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε . \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \varepsilon.\tag{*}$

"Tương tác", theo nghĩa chung nhất, có nghĩa là các tham số có thể phụ thuộc vào các biến khác. $\beta_i$

Cụ thể, trong ví dụ này chỉ có hai biến hồi quy, chúng ta có thể viết chung chung

β_{1} = = β_{1} (x_{2}) và β_{2} = = β_{2} (x_{1}) .

$\beta_1 = \beta_1(x_2)\text{ and }\beta_2 = \beta_2(x_1).$

Phân tích

Bây giờ, trong thực tế, không ai ngoại trừ một nhà vật lý lý thuyết thực sự tin rằng mô hình là hoàn toàn chính xác: đó là một sự gần đúng với sự thật và, chúng tôi hy vọng, một mô hình gần gũi. Theo đuổi ý tưởng này hơn nữa, chúng tôi có thể hỏi liệu chúng tôi có thể xấp xỉ tương tự các hàm với các hàm tuyến tính trong trường hợp chúng tôi cần mô hình hóa một số loại tương tác. Cụ thể, chúng tôi có thể cố gắng viết $(*)$ $\beta_i$

β_{1} (x_{2}) = = γ_{0} + γ_{1} x_{2} + {lỗi nhỏ}_{1};

$\beta_1(x_2) = \gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1;$

β_{2} (x_{1}) = = δ_{0} + δ_{1} x_{1} + {lỗi nhỏ}_{2} .

$\beta_2(x_1) = \delta_0 + \delta_1 x_1 + \text{ tiny error}_2.$

Chúng ta hãy xem nơi dẫn đến. Việc cắm các xấp xỉ tuyến tính này vào $(*)$ sẽ cho

\begin{aligned} Y & = = β_{0} + β_{1} (x_{2}) x_{1} + β_{2} (x_{1}) x_{2} + ε \\ = = β_{0} + (γ_{0} + γ_{1} x_{2} + {lỗi nhỏ}_{1}) x_{1} + (δ_{0} + δ_{1} x_{1} + {lỗi nhỏ}_{2}) x_{2} + ε \\ = = β_{0} + γ_{0} x_{1} + δ_{0} x_{2} + (γ_{1} + δ_{1}) x_{1} x_{2} + Giáo dục \end{aligned}

$\eqalign{ Y &= \beta_0 + \beta_1(x_2) x_1 + \beta_2(x_1) x_2 + \varepsilon \\ &= \beta_0 + (\gamma_0 + \gamma_1 x_2 + \text{ tiny error}_1)x_1 + (\delta_0 + \delta_1 x_1 + \text{ tiny error}_2)x_2 + \varepsilon \\ &= \beta_0 + \gamma_0 x_1 + \delta_0 x_2 + (\gamma_1 + \delta_1)x_1 x_2 + \ldots }$

trong đó " " biểu thị tổng lỗi, $\ldots$

Giáo dục = = ({lỗi nhỏ}_{1}) x_{1} + ({lỗi nhỏ}_{2}) x_{2} + ε .

$\ldots = (\text{ tiny error}_1)x_1 + (\text{ tiny error}_2)x_2 + \varepsilon.$

Với bất kỳ may mắn nào, nhân hai "lỗi nhỏ" đó với các giá trị điển hình của sẽ (a) không tương xứng so với hoặc (b) có thể được coi là thuật ngữ ngẫu nhiên, khi được thêm vào (và có thể điều chỉnh thuật ngữ không đổi để phù hợp với bất kỳ sai lệch hệ thống nào) có thể được coi là một thuật ngữ lỗi ngẫu nhiên. $x_i$ $\varepsilon$ $\varepsilon$ $\beta_0$

Trong cả hai trường hợp, với một sự thay đổi ký hiệu, chúng ta thấy rằng mô hình tương tác gần đúng tuyến tính này có dạng

\begin{matrix} (**) & Y = = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2} + ε, \end{matrix}

$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1 x_2 + \varepsilon,\tag{**}$

đó chính xác là mô hình hồi quy "tương tác" thông thường. (Lưu ý rằng không có tham số mới nào, cũng không phải , có cùng số lượng ban đầu được biểu thị bằng các thuật ngữ đó trong ) $\varepsilon$ $(*).$

Quan sát cách phát sinh thông qua sự thay đổi trong cả hai tham số ban đầu. Nó ghi lại sự kết hợp của (i) cách hệ số của phụ thuộc vào (cụ thể là thông qua ) và (ii) hệ số của phụ thuộc vào (thông qua ). $\beta_{12}$ $x_1$ $x_2$ $\gamma_1$ $x_2$ $x_1$ $\delta_1$

Một số hậu quả

Một kết quả của phân tích này là nếu chúng ta sửa tất cả trừ một trong các biến hồi quy, thì (theo điều kiện ), đáp ứng vẫn là một hàm tuyến tính của biến hồi quy còn lại. $Y$ Chẳng hạn, nếu chúng tôi sửa giá trị của thì chúng tôi có thể viết lại mô hình tương tác thành $x_2,$ $(**)$

Y = = (β_{0} + β_{2} x_{2}) + (β_{1} + β_{12} x_{2}) x_{1} + ε,

$Y = (\beta_0 + \beta_2 x_2) + (\beta_1 + \beta_{12} x_2) x_1 + \varepsilon,$

trong đó phần chặn là và độ dốc (nghĩa là hệ số ) là Điều này cho phép mô tả dễ dàng và cái nhìn sâu sắc. Về mặt hình học, bề mặt được cho bởi hàm $\beta_0 + \beta_2 x_2$ $x_1$ $\beta_1 + \beta_2 x_2.$

f (x_{1}, x_{2}) = = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{12} x_{1} x_{2}

$f(x_1,x_2) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_{12}x_1x_2$

được cai trị: khi chúng ta cắt nó song song với một trong hai trục tọa độ, kết quả luôn luôn là một đường thẳng. (Tuy nhiên, bản thân bề mặt không phải là mặt phẳng trừ khi Thật vậy, nó ở khắp mọi nơi có độ cong Gaussian âm.) $\beta_{12}=0.$

Cuối cùng, nếu hy vọng của chúng tôi về (a) hoặc (b) không được triển khai, chúng tôi có thể mở rộng thêm hành vi chức năng của ban đầu để bao gồm các điều khoản của đơn hàng thứ hai trở lên. Thực hiện phân tích tương tự cho thấy điều này sẽ đưa ra các điều khoản có dạng v.v. Theo nghĩa này, bao gồm một thuật ngữ tương tác (sản phẩm) chỉ là bước đầu tiên - và đơn giản nhất - hướng tới việc mô hình hóa các mối quan hệ phi tuyến giữa phản hồi và các biến hồi quy bằng các hàm đa thức. $\beta_i$ $x_1^2,$ $x_2^2,$ $x_1x_2^2,$ $x_1^2x_2,$

Cuối cùng, trong sách giáo khoa EDA (Addison-Wesley 1977), John Tukey đã chỉ ra cách tiếp cận này có thể được thực hiện rộng rãi hơn nhiều. Sau lần đầu tiên "diễn đạt lại" (nghĩa là áp dụng các phép biến đổi phi tuyến tính phù hợp cho) các biến hồi quy và đáp ứng, thường là trường hợp mô hình áp dụng cho các biến được chuyển đổi hoặc, nếu không, mô hình có thể dễ dàng phù hợp (sử dụng phân tích mạnh mẽ của phần dư). Điều này cho phép rất nhiều mối quan hệ phi tuyến tính được thể hiện và diễn giải như các phản ứng tuyến tính có điều kiện. $(*)$ $(**)$

— whuber
nguồn

Đây là một câu trả lời chi tiết đáng yêu. Cảm ơn bạn. Ngoài ra, tôi liên tục thấy các tài liệu tham khảo về cuốn sách của Tukey xuất hiện trên trang web này ... mặc dù nó đã quá cũ. Có lẽ đã đến lúc đọc nó.

— ChilliProject