Chúng tôi sử dụng phân tích hồi quy để tạo các mô hình mô tả ảnh hưởng của biến đổi trong các biến dự đoán đến biến phản ứng. Đôi khi nếu chúng ta có một biến phân loại với các giá trị như Có / Không hoặc Nam / Nữ, v.v. thì phân tích hồi quy đơn giản cho nhiều kết quả cho mỗi giá trị của biến phân loại. Trong kịch bản như vậy, chúng ta có thể nghiên cứu ảnh hưởng của biến phân loại bằng cách sử dụng nó cùng với biến dự đoán và so sánh các đường hồi quy cho từng cấp của biến phân loại. Một phân tích như vậy được gọi là Phân tích hiệp phương sai còn được gọi là ANCOVA.
Ví dụ
Xem xét R
tập dữ liệu tích hợp mtcars
. Trong đó chúng tôi quan sát rằng trường am
đại diện cho loại truyền (tự động hoặc thủ công). Nó là một biến phân loại với các giá trị 0 và 1. dặm một gallon giá trị ( mpg
) của một chiếc xe cũng có thể phụ thuộc vào nó bên cạnh những giá trị của mã lực ( hp
). Chúng tôi nghiên cứu ảnh hưởng của giá trị của am
hồi quy giữa mpg
và hp
. Nó được thực hiện bằng cách sử dụng aov()
hàm theo sau là anova()
hàm để so sánh nhiều hồi quy.
Dữ liệu đầu vào
Tạo một khung dữ liệu chứa các lĩnh vực mpg
, hp
và am
từ tập dữ liệu mtcars
. Ở đây chúng tôi lấy mpg
làm biến trả lời, hp
làm biến dự đoán và am
là biến phân loại.
input <- mtcars[,c("am","mpg","hp")]
head(input)
Khi chúng tôi thực thi mã trên, nó tạo ra kết quả như sau:
am mpg hp
Mazda RX4 1 21.0 110
Mazda RX4 Wag 1 21.0 110
Datsun 710 1 22.8 93
Hornet 4 Drive 0 21.4 110
Hornet Sportabout 0 18.7 175
Valiant 0 18.1 105
Phân tích ANCOVA
Chúng tôi tạo ra một mô hình hồi quy lấy hp
làm biến dự báo và mpg
là biến trả lời có tính đến sự tương tác giữa am
và hp
.
Mô hình với sự tương tác giữa biến phân loại và biến dự đoán
Tạo mô hình hồi quy1
result1 <- aov(mpg~hp*am,data=mtcars)
summary(result1)
Khi chúng tôi thực thi mã trên, nó tạo ra kết quả như sau:
Df Sum Sq Mean Sq F value Pr(>F)
hp 1 678.4 678.4 77.391 1.50e-09 ***
am 1 202.2 202.2 23.072 4.75e-05 ***
hp:am 1 0.0 0.0 0.001 0.981
Residuals 28 245.4 8.8
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Kết quả này cho thấy cả hai mã lực và loại truyền có ảnh hưởng quan trọng trên dặm cho mỗi gallon như p-giá trị trong cả hai trường hợp là nhỏ hơn 0,05. Nhưng sự tương tác giữa hai biến này không đáng kể vì giá trị p lớn hơn 0,05.
Mô hình không có tương tác giữa biến phân loại và biến dự đoán
Tạo mô hình hồi quy2
result2 <- aov(mpg~hp+am,data=mtcars)
summary(result2)
Khi chúng tôi thực thi mã trên, nó tạo ra kết quả như sau:
Df Sum Sq Mean Sq F value Pr(>F)
hp 1 678.4 678.4 80.15 7.63e-10 ***
am 1 202.2 202.2 23.89 3.46e-05 ***
Residuals 29 245.4 8.5
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Kết quả này cho thấy cả hai mã lực và loại truyền có ảnh hưởng quan trọng trên dặm cho mỗi gallon như p-giá trị trong cả hai trường hợp là nhỏ hơn 0,05.
So sánh hai mô hình
Bây giờ chúng ta có thể so sánh hai mô hình để kết luận nếu sự tương tác của các biến thực sự không đáng kể. Đối với điều này, chúng tôi sử dụng anova()
chức năng.
anova(result1,result2)
Model 1: mpg ~ hp * am
Model 2: mpg ~ hp + am
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28 245.43
2 29 245.44 -1 -0.0052515 6e-04 0.9806
Vì giá trị p lớn hơn 0,05, chúng tôi kết luận rằng sự tương tác giữa công suất ngựa và loại truyền tải là không đáng kể. Vì vậy, số dặm trên mỗi gallon sẽ phụ thuộc một cách tương tự vào sức ngựa của xe ở cả chế độ truyền tự động và bằng tay.