Thực tế như bạn đã chỉ ra một cách chính xác, trong trường hợp một biến phân loại duy nhất (có khả năng lớn hơn 2 cấp), thực sự là giá trị trung bình của tham chiếu và khác là sự khác biệt giữa giá trị trung bình của cấp đó và giá trị trung bình của tài liệu tham khảo.β^0β^
Nếu chúng tôi mở rộng một chút ví dụ của bạn để đưa cấp độ thứ ba vào danh mục chủng tộc (nói là người châu Á ) và chọn Trắng làm tham chiếu, thì bạn sẽ có:
- β^0= x¯Wh i t e
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
Trong trường hợp này, việc giải thích tất cả là dễ dàng và việc tìm giá trị trung bình của bất kỳ cấp nào của danh mục là đơn giản. Ví dụ:β^
- x¯A s i a n= β^A s i a n+ β^0
Thật không may trong trường hợp có nhiều biến phân loại, việc giải thích chính xác cho phần chặn không còn rõ ràng nữa (xem ghi chú ở cuối). Khi có n loại, mỗi loại có nhiều cấp độ và một cấp độ tham chiếu (ví dụ: Trắng và Nam trong ví dụ của bạn), hình thức chung cho việc chặn là:
β^0= ∑ni = 1x¯r e fe r e n c e , i- ( n - 1 ) x¯,
trong đó
x¯r e fe r e n c e , i là giá trị trung bình của mức tham chiếu của biến phân loại thứ i,
x¯ là giá trị trung bình của toàn bộ tập dữ liệu
Người kia cũng giống như với một thể loại duy nhất: họ là những chênh lệch giữa giá trị trung bình của mức độ đó, chủng loại và giá trị trung bình về mức độ tham khảo cùng loại.β^
Nếu chúng tôi quay lại ví dụ của bạn, chúng tôi sẽ nhận được:
- β^0= x¯Wh i t e+ x¯Ma l e- x¯
- β^B l a c k= x¯B l a c k- x¯Wh i t e
- β^A s i a n= x¯A s i a n- x¯Wh i t e
- β^Fe m a l e= x¯Fe m a l e- x¯Ma l e
Bạn sẽ nhận thấy rằng giá trị trung bình của các loại chéo (ví dụ: con đực trắng ) không có trong bất kỳ . Như một vấn đề thực tế, bạn không thể tính toán chính xác các phương tiện này từ kết quả của loại hồi quy này .β^
Lý do cho điều này là, số lượng biến dự đoán (nghĩa là ) nhỏ hơn số lượng danh mục chéo (miễn là bạn có nhiều hơn 1 danh mục) nên không phải lúc nào cũng phù hợp hoàn hảo. Nếu chúng tôi quay lại ví dụ của bạn, số lượng dự đoán là 4 (ví dụ và ) trong khi số lượng danh mục chéo là 6.β^β^0, β ^B l a c k, β ^A s i a nβ^Fe m a l e
Ví dụ số
Cho tôi mượn từ @Gung cho một ví dụ số đóng hộp:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
Trong trường hợp này, các mức trung bình khác nhau sẽ được tính toán trong là:β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Chúng ta có thể so sánh những con số này với kết quả hồi quy:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
Như bạn có thể thấy, khác nhau được ước tính từ hồi quy tất cả đều phù hợp với các công thức được đưa ra ở trên. Ví dụ: được cung cấp bởi:
Cung cấp:β^β^0
β^0= x¯Wh i t e+ x¯Ma l e- x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Lưu ý về sự lựa chọn độ tương phản
Một lưu ý cuối cùng về chủ đề này, tất cả các kết quả được thảo luận ở trên liên quan đến hồi quy phân loại sử dụng xử lý tương phản (loại tương phản mặc định trong R). Có nhiều loại tương phản khác nhau có thể được sử dụng (đáng chú ý là Helmert và sum) và nó sẽ thay đổi cách hiểu của khác nhau . Tuy nhiên, Nó sẽ không thay đổi dự đoán cuối cùng từ hồi quy (ví dụ: dự đoán cho nam giới Trắng luôn giống nhau cho dù bạn sử dụng loại tương phản nào).β^
Sở thích cá nhân của tôi là tổng tương phản vì tôi cảm thấy rằng việc giải thích khái quát tốt hơn khi có nhiều danh mục. Đối với loại tương phản này, không có mức tham chiếu, hay đúng hơn là tham chiếu là giá trị trung bình của toàn bộ mẫu và bạn có sau đây:β^c o n t r . s u mβ^c o n t r . s u m
- β^co n t r . s u m0= x¯
- β^c o n t r . s u mTôi= x¯Tôi- x¯
Nếu chúng ta quay lại ví dụ trước, bạn sẽ có:
- β^c o n t r . s u m0= x¯
- β^c o n t r . s u mWh i t e= x¯Wh i t e- x¯
- β^c o n t r . s u mB l a c k= x¯B l a c k- x¯
- β^c o n t r . s u mA s i a n= x¯A s i a n- x¯
- β^c o nt r . s u mMa l e= x¯Ma l e-x¯
- β^c o n t r . s u mFe m a l e= x¯Fe m a l e- x¯
Bạn sẽ nhận thấy rằng vì Trắng và Nam không còn ở mức tham chiếu nữa, chúng không còn 0. Thực tế là đây là 0 đặc trưng cho điều trị tương phản.β^c o n t r . s u m