Tóm tắc
Khi các yếu tố dự đoán tương quan, một thuật ngữ bậc hai và một thuật ngữ tương tác sẽ mang thông tin tương tự. Điều này có thể làm cho mô hình bậc hai hoặc mô hình tương tác có ý nghĩa; nhưng khi cả hai thuật ngữ được bao gồm, bởi vì chúng rất giống nhau có thể không đáng kể. Chẩn đoán chuẩn cho bệnh đa nang, chẳng hạn như VIF, có thể không phát hiện ra bất kỳ điều nào trong số này. Ngay cả một âm mưu chẩn đoán, được thiết kế đặc biệt để phát hiện hiệu quả của việc sử dụng mô hình bậc hai thay cho tương tác, có thể không xác định được mô hình nào là tốt nhất.
Phân tích
Lực đẩy của phân tích này, và sức mạnh chính của nó, là đặc trưng cho các tình huống như được mô tả trong câu hỏi. Với đặc tính như vậy có sẵn, đó là một nhiệm vụ dễ dàng để mô phỏng dữ liệu hành xử tương ứng.
Hãy xem xét hai yếu tố dự đoán và X 2 (chúng tôi sẽ tự động chuẩn hóa để mỗi phương sai có đơn vị trong tập dữ liệu) và giả sử đáp ứng ngẫu nhiên Y được xác định bởi các yếu tố dự đoán này và tương tác của chúng cộng với lỗi ngẫu nhiên độc lập:X1X2Y
Y=β1X1+β2X2+β1,2X1X2+ε.
Trong nhiều trường hợp dự đoán là tương quan. Bộ dữ liệu có thể trông như thế này:
Những dữ liệu mẫu đã được tạo ra với và beta 1 , 2 = 0,1 . Tương quan giữa X 1 và X 2 là 0,85 .β1=β2=1β1,2=0.1X1X20.85
Điều này không nhất thiết có nghĩa là chúng ta đang nghĩ về và X 2 khi nhận ra các biến ngẫu nhiên: nó có thể bao gồm tình huống cả X 1 và X 2 là các cài đặt trong một thử nghiệm được thiết kế, nhưng vì một số lý do, các cài đặt này không trực giao.X1X2X1X2
Bất kể mối tương quan phát sinh như thế nào, một cách tốt để mô tả nó là về mức độ của các yếu tố dự đoán khác với mức trung bình của chúng, . Những khác biệt này sẽ khá nhỏ (theo nghĩa là phương sai của chúng nhỏ hơn 1 ); tương quan giữa X 1 và X 2 càng lớn , những khác biệt này sẽ càng nhỏ. Viết, sau đó, X 1 = X 0 + δ 1 và X 2 = X 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1 , chúng ta có thể tái hiện (nói) X 2 về X 1 là X 2 = X 1 + ( δ 2 - δ 1 ) . Chỉ cắm cái này vàothuật ngữtương tác, mô hình làX2=X0+δ2X2X1X2=X1+(δ2−δ1)
Y=β1X1+β2X2+β1,2X1(X1+[δ2−δ1])+ε=(β1+β1,2[δ2−δ1])X1+β2X2+β1,2X21+ε
Cung cấp các giá trị của khác nhau chỉ một chút so với beta 1 , chúng tôi có thể thu thập biến thể này với các điều khoản ngẫu nhiên đúng, viếtβ1,2[δ2−δ1]β1
Y=β1X1+β2X2+β1,2X21+(ε+β1,2[δ2−δ1]X1)
Vì vậy, nếu chúng ta thoái chống lại X 1 , X 2 , và X 2 1 , chúng tôi sẽ làm cho một lỗi: sự thay đổi trong dư sẽ phụ thuộc vào X 1 (có nghĩa là, nó sẽ được heteroscedastic ). Điều này có thể được nhìn thấy với một phép tính phương sai đơn giản:YX1,X2X21X1
var(ε+β1,2[δ2−δ1]X1)=var(ε)+[β21,2var(δ2−δ1)]X21.
Tuy nhiên, nếu sự thay đổi điển hình trong vượt đáng kể sự thay đổi điển hình trong β 1 , 2 [ δ 2 - δ 1 ] X 1 , các biến ngẫu nhiên đó sẽ là quá thấp để có thể phát hiện (và nên tạo ra một mô hình tốt). (Như được hiển thị bên dưới, một cách để tìm vi phạm giả định hồi quy này là vẽ giá trị tuyệt đối của phần dư so với giá trị tuyệt đối của X 1 - trước tiên là chuẩn hóa X 1 nếu cần.) Đây là đặc tính chúng tôi đang tìm kiếm .εβ1,2[δ2−δ1]X1X1X1
Luôn nhớ rằng và X 2 được giả định được tiêu chuẩn hóa cho đơn vị sai, điều này ám chỉ phương sai của δ 2 - δ 1 sẽ tương đối nhỏ. Sau đó, để tái tạo hành vi được quan sát, cần chọn một giá trị tuyệt đối nhỏ cho β 1 , 2 , nhưng làm cho nó đủ lớn (hoặc sử dụng một tập dữ liệu đủ lớn) để nó có ý nghĩa.X1X2δ2−δ1β1,2
Nói tóm lại, khi các yếu tố dự đoán tương quan và tương tác nhỏ nhưng không quá nhỏ, một thuật ngữ bậc hai (chỉ trong hai yếu tố dự báo) và một thuật ngữ tương tác sẽ có ý nghĩa riêng biệt nhưng bị lẫn lộn với nhau. Chỉ riêng phương pháp thống kê không có khả năng giúp chúng ta quyết định sử dụng phương pháp nào tốt hơn.
Thí dụ
Hãy kiểm tra dữ liệu mẫu này bằng cách lắp một số mô hình. Nhớ lại rằng được đặt thành 0,1 khi mô phỏng các dữ liệu này. Mặc dù đó là nhỏ (hành vi bậc hai thậm chí không thể nhìn thấy trong các biểu đồ phân tán trước đó), với 150 điểm dữ liệu, chúng tôi có cơ hội phát hiện ra nó.β1,20.1150
Đầu tiên, mô hình bậc hai :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.03363 0.03046 1.104 0.27130
x1 0.92188 0.04081 22.592 < 2e-16 ***
x2 1.05208 0.04085 25.756 < 2e-16 ***
I(x1^2) 0.06776 0.02157 3.141 0.00204 **
Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808
Thuật ngữ bậc hai là đáng kể. Hệ số của nó, , đánh giá thấp β 1 , 2 = 0,1 , nhưng nó có kích thước đúng và dấu đúng. Để kiểm tra tính đa hình (tương quan giữa các yếu tố dự đoán), chúng tôi tính toán các yếu tố lạm phát phương sai (VIF):0.068β1,2=0.1
x1 x2 I(x1^2)
3.531167 3.538512 1.009199
Bất kỳ giá trị nhỏ hơn thường được coi là tốt. Đây không phải là đáng báo động.5
Tiếp theo, mô hình có tương tác nhưng không có thuật ngữ bậc hai:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02887 0.02975 0.97 0.333420
x1 0.93157 0.04036 23.08 < 2e-16 ***
x2 1.04580 0.04039 25.89 < 2e-16 ***
x1:x2 0.08581 0.02451 3.50 0.000617 ***
Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811
x1 x2 x1:x2
3.506569 3.512599 1.004566
Tất cả các kết quả tương tự như những người trước đó. Cả hai đều tốt như nhau (với một lợi thế rất nhỏ cho mô hình tương tác).
Cuối cùng, hãy bao gồm cả các điều khoản tương tác và bậc hai :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02572 0.03074 0.837 0.404
x1 0.92911 0.04088 22.729 <2e-16 ***
x2 1.04771 0.04075 25.710 <2e-16 ***
I(x1^2) 0.01677 0.03926 0.427 0.670
x1:x2 0.06973 0.04495 1.551 0.123
Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981
x1 x2 I(x1^2) x1:x2
3.577700 3.555465 3.374533 3.359040
X1X2X21X1X2
Nếu chúng tôi đã cố gắng phát hiện tính không đồng nhất trong mô hình bậc hai (mô hình thứ nhất), chúng tôi sẽ thất vọng:
| X1|