Thuật ngữ bậc hai hoặc tương tác có ý nghĩa trong sự cô lập, nhưng không cùng nhau


15

Là một phần của bài tập, tôi phải điều chỉnh một mô hình có hai biến dự đoán. Sau đó, tôi đã phải vẽ một sơ đồ dư của các mô hình dựa trên một trong những dự đoán được đưa vào và thực hiện các thay đổi dựa trên đó. Cốt truyện cho thấy một xu hướng cong và vì vậy tôi bao gồm một thuật ngữ bậc hai cho dự đoán đó. Mô hình mới cho thấy thuật ngữ bậc hai là có ý nghĩa. Tất cả đều tốt cho đến nay.

Tuy nhiên, dữ liệu cho thấy rằng một tương tác cũng có ý nghĩa. Việc thêm một thuật ngữ tương tác vào mô hình ban đầu cũng 'cố định' xu hướng đường cong và cũng có ý nghĩa khi được thêm vào mô hình (không có thuật ngữ bậc hai). Vấn đề là, khi cả hai bậc hai và thuật ngữ tương tác được thêm vào mô hình, một trong số chúng không đáng kể.

Tôi nên đưa vào thuật ngữ nào (bậc hai hoặc tương tác) trong mô hình và tại sao?

Câu trả lời:


21

Tóm tắc

Khi các yếu tố dự đoán tương quan, một thuật ngữ bậc hai và một thuật ngữ tương tác sẽ mang thông tin tương tự. Điều này có thể làm cho mô hình bậc hai hoặc mô hình tương tác có ý nghĩa; nhưng khi cả hai thuật ngữ được bao gồm, bởi vì chúng rất giống nhau có thể không đáng kể. Chẩn đoán chuẩn cho bệnh đa nang, chẳng hạn như VIF, có thể không phát hiện ra bất kỳ điều nào trong số này. Ngay cả một âm mưu chẩn đoán, được thiết kế đặc biệt để phát hiện hiệu quả của việc sử dụng mô hình bậc hai thay cho tương tác, có thể không xác định được mô hình nào là tốt nhất.


Phân tích

Lực đẩy của phân tích này, và sức mạnh chính của nó, là đặc trưng cho các tình huống như được mô tả trong câu hỏi. Với đặc tính như vậy có sẵn, đó là một nhiệm vụ dễ dàng để mô phỏng dữ liệu hành xử tương ứng.

Hãy xem xét hai yếu tố dự đoán X 2 (chúng tôi sẽ tự động chuẩn hóa để mỗi phương sai có đơn vị trong tập dữ liệu) và giả sử đáp ứng ngẫu nhiên Y được xác định bởi các yếu tố dự đoán này và tương tác của chúng cộng với lỗi ngẫu nhiên độc lập:X1X2Y

Y=β1X1+β2X2+β1,2X1X2+ε.

Trong nhiều trường hợp dự đoán là tương quan. Bộ dữ liệu có thể trông như thế này:

Ma trận phân tán

Những dữ liệu mẫu đã được tạo ra với beta 1 , 2 = 0,1 . Tương quan giữa X 1X 20,85 .β1=β2=1β1,2=0.1X1X20.85

Điều này không nhất thiết có nghĩa là chúng ta đang nghĩ về X 2 khi nhận ra các biến ngẫu nhiên: nó có thể bao gồm tình huống cả X 1X 2 là các cài đặt trong một thử nghiệm được thiết kế, nhưng vì một số lý do, các cài đặt này không trực giao.X1X2X1X2

Bất kể mối tương quan phát sinh như thế nào, một cách tốt để mô tả nó là về mức độ của các yếu tố dự đoán khác với mức trung bình của chúng, . Những khác biệt này sẽ khá nhỏ (theo nghĩa là phương sai của chúng nhỏ hơn 1 ); tương quan giữa X 1X 2 càng lớn , những khác biệt này sẽ càng nhỏ. Viết, sau đó, X 1 = X 0 + δ 1X 2 = X 0 + δX0=(X1+X2)/21X1X2X1=X0+δ1 , chúng ta có thể tái hiện (nói) X 2 về X 1 X 2 = X 1 + ( δ 2 - δ 1 ) . Chỉ cắm cái này vàothuật ngữtương tác, mô hình làX2=X0+δ2X2X1X2=X1+(δ2δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2δ1])X1+β2X2+β1,2X12+ε

Cung cấp các giá trị của khác nhau chỉ một chút so với beta 1 , chúng tôi có thể thu thập biến thể này với các điều khoản ngẫu nhiên đúng, viếtβ1,2[δ2δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2δ1]X1)

Vì vậy, nếu chúng ta thoái chống lại X 1 , X 2 , và X 2 1 , chúng tôi sẽ làm cho một lỗi: sự thay đổi trong dư sẽ phụ thuộc vào X 1 (có nghĩa là, nó sẽ được heteroscedastic ). Điều này có thể được nhìn thấy với một phép tính phương sai đơn giản:YX1,X2X12X1

var(ε+β1,2[δ2δ1]X1)=var(ε)+[β1,22var(δ2δ1)]X12.

Tuy nhiên, nếu sự thay đổi điển hình trong vượt đáng kể sự thay đổi điển hình trong β 1 , 2 [ δ 2 - δ 1 ] X 1 , các biến ngẫu nhiên đó sẽ là quá thấp để có thể phát hiện (và nên tạo ra một mô hình tốt). (Như được hiển thị bên dưới, một cách để tìm vi phạm giả định hồi quy này là vẽ giá trị tuyệt đối của phần dư so với giá trị tuyệt đối của X 1 - trước tiên là chuẩn hóa X 1 nếu cần.) Đây là đặc tính chúng tôi đang tìm kiếm .εβ1,2[δ2δ1]X1X1X1

Luôn nhớ rằng X 2 được giả định được tiêu chuẩn hóa cho đơn vị sai, điều này ám chỉ phương sai của δ 2 - δ 1 sẽ tương đối nhỏ. Sau đó, để tái tạo hành vi được quan sát, cần chọn một giá trị tuyệt đối nhỏ cho β 1 , 2 , nhưng làm cho nó đủ lớn (hoặc sử dụng một tập dữ liệu đủ lớn) để nó có ý nghĩa.X1X2δ2δ1β1,2

Nói tóm lại, khi các yếu tố dự đoán tương quan và tương tác nhỏ nhưng không quá nhỏ, một thuật ngữ bậc hai (chỉ trong hai yếu tố dự báo) và một thuật ngữ tương tác sẽ có ý nghĩa riêng biệt nhưng bị lẫn lộn với nhau. Chỉ riêng phương pháp thống kê không có khả năng giúp chúng ta quyết định sử dụng phương pháp nào tốt hơn.


Thí dụ

Hãy kiểm tra dữ liệu mẫu này bằng cách lắp một số mô hình. Nhớ lại rằng được đặt thành 0,1 khi mô phỏng các dữ liệu này. Mặc dù đó là nhỏ (hành vi bậc hai thậm chí không thể nhìn thấy trong các biểu đồ phân tán trước đó), với 150 điểm dữ liệu, chúng tôi có cơ hội phát hiện ra nó.β1,20.1150

Đầu tiên, mô hình bậc hai :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

Thuật ngữ bậc hai là đáng kể. Hệ số của nó, , đánh giá thấp β 1 , 2 = 0,1 , nhưng nó có kích thước đúng và dấu đúng. Để kiểm tra tính đa hình (tương quan giữa các yếu tố dự đoán), chúng tôi tính toán các yếu tố lạm phát phương sai (VIF):0.068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

Bất kỳ giá trị nhỏ hơn thường được coi là tốt. Đây không phải là đáng báo động.5

Tiếp theo, mô hình có tương tác nhưng không có thuật ngữ bậc hai:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

Tất cả các kết quả tương tự như những người trước đó. Cả hai đều tốt như nhau (với một lợi thế rất nhỏ cho mô hình tương tác).

Cuối cùng, hãy bao gồm cả các điều khoản tương tác và bậc hai :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

X1X2X12X1X2

Nếu chúng tôi đã cố gắng phát hiện tính không đồng nhất trong mô hình bậc hai (mô hình thứ nhất), chúng tôi sẽ thất vọng:

Sơ đồ chẩn đoán

|X1|


9

Điều gì có ý nghĩa nhất dựa trên nguồn dữ liệu?

Chúng tôi không thể trả lời câu hỏi này cho bạn, máy tính không thể trả lời câu hỏi này cho bạn. Lý do mà chúng ta vẫn cần các nhà thống kê thay vì chỉ các chương trình thống kê là vì những câu hỏi như thế này. Số liệu thống kê không chỉ đơn thuần là bẻ khóa các con số, mà còn là tìm hiểu câu hỏi và nguồn dữ liệu và có thể đưa ra quyết định dựa trên khoa học và lý lịch và các thông tin khác bên ngoài dữ liệu mà máy tính nhìn vào. Giáo viên của bạn có thể hy vọng rằng bạn sẽ xem đây là một phần của bài tập. Nếu tôi đã chỉ định một vấn đề như thế này (và tôi có trước đây), tôi sẽ quan tâm đến việc biện minh cho câu trả lời của bạn hơn là điều bạn thực sự đã chọn.

Nó có thể vượt ra ngoài lớp hiện tại của bạn, nhưng một cách tiếp cận nếu không có lý do khoa học rõ ràng về việc thích một mô hình hơn mô hình trung bình, bạn phù hợp với cả hai mô hình (và có thể cả một số mô hình khác), sau đó bạn trung bình cùng dự đoán (thường được cân nhắc bởi sự tốt đẹp của sự phù hợp của các mô hình khác nhau).

Một tùy chọn khác, khi có thể, là thu thập thêm dữ liệu và nếu có thể, chọn các giá trị x để nó trở nên rõ ràng hơn các hiệu ứng phi tuyến tính và tương tác là gì.

Có một số công cụ để so sánh sự phù hợp của các mô hình không lồng nhau (AIC, BIC, v.v.), nhưng trong trường hợp này có lẽ chúng sẽ không thể hiện đủ sự khác biệt để ghi đè lên sự hiểu biết về dữ liệu đến từ đâu và điều gì có ý nghĩa nhất.


1

Tuy nhiên, một khả năng khác, ngoài @ Greg là bao gồm cả hai điều khoản, mặc dù một điều khoản không đáng kể. Chỉ bao gồm các thuật ngữ có ý nghĩa thống kê không phải là một quy luật của vũ trụ.


Cảm ơn Peter & @Greg. Tôi đoán rằng trong giai đoạn nghiên cứu này, tôi đang tìm kiếm câu trả lời tuyệt đối cho các câu hỏi cần ít nhất một số lý luận định tính. Vì việc thêm thuật ngữ bậc hai hoặc thuật ngữ tương tác 'cố định' phần dư so với biểu đồ dự đoán, tôi không chắc nên đưa vào thuật ngữ nào. Điều làm tôi ngạc nhiên là việc bao gồm một thuật ngữ bậc hai làm cho thuật ngữ tương tác không có ý nghĩa. Tôi đã có thể nghĩ rằng nếu có một sự tương tác, nó sẽ có ý nghĩa bất kể thuật ngữ bậc hai có được bao gồm hay không.
Tal Bashan

1
Xin chào @TalBashan Một nhà thống kê nổi tiếng, Donald Cox, đã từng nói rằng "không có câu hỏi thống kê thông thường, chỉ có thói quen thống kê đáng nghi ngờ"
Peter Flom - Rebstate Monica

@PeterFlom Có lẽ ý bạn là Ngài David Cox ??
Michael R. Chernick

Ôi Vâng, David, không phải Donald. Lấy làm tiếc.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.