Giải thích về betas khi có nhiều biến phân loại


18

Tôi hiểu khái niệm rằng là giá trị trung bình khi biến phân loại bằng 0 (hoặc là nhóm tham chiếu), đưa ra giải thích kết thúc rằng hệ số hồi quy là sự khác biệt về trung bình của hai loại. Ngay cả với> 2 danh mục, tôi sẽ giả sử mỗi giải thích sự khác biệt giữa ý nghĩa của danh mục đó và tham chiếu. ββ^0β^

Nhưng, điều gì sẽ xảy ra nếu nhiều biến được đưa vào mô hình đa biến? Bây giờ, việc chặn có nghĩa là gì khi cho rằng nó không có nghĩa đối với nó có nghĩa là tham chiếu của hai biến phân loại? Một ví dụ sẽ là nếu cả giới tính (M (ref) / F) và chủng tộc (trắng (ref) / đen) đều ở trong một mô hình. Là giá trị trung bình đối với nam chỉ có màu trắng? Làm thế nào để giải thích bất kỳ khả năng khác?β^0

Như một lưu ý riêng: các tuyên bố tương phản có phục vụ như một cách để phương pháp điều tra sửa đổi hiệu ứng không? Hoặc chỉ để xem hiệu ứng ( ) ở các cấp độ khác nhau?β^


Là một lưu ý thuật ngữ, "đa biến" có nghĩa là nhiều biến trả lời , không phải nhiều biến dự đoán (xem tại đây ). Ngoài ra, tôi không làm theo câu hỏi cuối cùng của bạn.
gung - Phục hồi Monica

Cảm ơn đã làm rõ điều này. Làm cho ngôn ngữ chính xác là quan trọng đối với tôi! Tôi cho rằng tôi hoàn toàn không thể hiểu tại sao các câu lệnh tương phản được sử dụng vì người ta luôn có thể đặt biến tham chiếu thành biến tương phản với biến nào tương phản?
Renee

1
Tôi đoán bạn chỉ có thể tiếp tục điều chỉnh lại mô hình với các mức tham chiếu khác nhau. Tôi không chắc điều đó thuận tiện hơn. Với độ tương phản, bạn cũng có thể chỉ định một bộ tương phản trực giao hoặc độ tương phản ngụ ý về mặt lý thuyết (A so với kết hợp B & C) để kiểm tra.
gung - Phục hồi Monica

Câu trả lời:


19

Bạn đã đúng về việc giải thích các betas khi có một biến phân loại duy nhất với các cấp . Nếu có nhiều biến phân loại (và không có thuật ngữ tương tác), thì chặn ( ) là giá trị trung bình của nhóm tạo thành mức tham chiếu cho cả hai (tất cả) biến phân loại. Sử dụng kịch bản ví dụ của bạn, xem xét trường hợp không có tương tác, thì betas là: kβ 0β^0

  • β^0 : giá trị trung bình của con đực trắng
  • β^Female : sự khác biệt giữa giá trị trung bình của nữ và trung bình của nam
  • β^Black : sự khác biệt giữa giá trị trung bình của người da đen và giá trị trung bình của người da trắng

Chúng ta cũng có thể nghĩ về điều này về cách tính toán các nhóm khác nhau có nghĩa là:

x¯WhTôite MmộttôieS= =β^0x¯WhTôite FemmộttôieS= =β^0+β^Femmộttôiex¯Btôimộtck MmộttôieS= =β^0+β^Btôimộtckx¯Btôimộtck FemmộttôieS= =β^0+β^Femmộttôie+β^Btôimộtck

Nếu bạn có một thuật ngữ tương tác, nó sẽ được thêm vào cuối phương trình cho phụ nữ da đen. (Việc giải thích thuật ngữ tương tác như vậy khá phức tạp, nhưng tôi đi qua nó ở đây: Giải thích thuật ngữ tương tác .)


Cập nhật : Để làm rõ quan điểm của tôi, hãy xem xét một ví dụ đóng hộp, được mã hóa R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

nhập mô tả hình ảnh ở đây

Các phương tiện ycho các biến phân loại này là:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Chúng ta có thể so sánh sự khác biệt giữa các phương tiện này với các hệ số từ một mô hình được trang bị:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

Điều nhận ra về tình huống này là, không có thuật ngữ tương tác, chúng ta đang giả sử các đường song song. Vì vậy, Estimatecho (Intercept)là trung bình của con đực trắng. Cái Estimatecho SexFemalelà sự khác biệt giữa giá trị trung bình của nữ và trung bình của nam. Cái Estimatecho RaceBlacklà sự khác biệt giữa giá trị trung bình của người da đen và giá trị trung bình của người da trắng. Một lần nữa, bởi vì một mô hình không có thuật ngữ tương tác giả định rằng các hiệu ứng là phụ gia nghiêm ngặt (các đường thẳng song song), giá trị trung bình của con cái đen là trung bình của con đực trắng cộng với sự khác biệt giữa trung bình của con cái và trung bình của con đực sự khác biệt giữa giá trị trung bình của người da đen và giá trị trung bình của người da trắng.


Cảm ơn bạn! Rất rõ ràng và hữu ích. Cuối cùng, bạn đề cập đến các điều khoản tương tác. Nếu một người thực hiện một thuật ngữ tương tác thì làm thế nào điều này thay đổi betas (có nghĩa là betas mới từ mô hình thuật ngữ tương tác)? Tôi biết rằng giá trị p cho thuật ngữ tương tác là quan trọng, nhưng liệu thuật ngữ tương tác beta có giải thích ý nghĩa không? Cảm ơn lần nữa vì sự giúp đỡ của bạn!
Renee

1
Trong trường hợp tương tác, betas 'hiệu ứng chính' chỉ đề cập đến sự khác biệt trong mức tham chiếu của yếu tố khác. Ví dụ: chỉ là sự khác biệt giữa và . β^Femmộttôiex¯WhTôite Mmộttôiex¯WhTôite Femmộttôie
gung - Phục hồi Monica

Có ý nghĩa. Cảm ơn bạn! & nó được thay đổi từ mô hình mà không có thuật ngữ tương tác do thuật ngữ tương tác cải thiện hiệu ứng chính? Có nghĩa là nếu không có tương tác, thuật ngữ hiệu ứng chính về mặt lý thuyết sẽ giống nhau?
Renee

Nếu hiệu ứng tương tác chính xác là 0 (đến các vị trí thập phân vô hạn), không chỉ trong dân số, mà cả trong mẫu của bạn, betas hiệu ứng chính sẽ giống nhau trong một mô hình w / hoặc w / o thuật ngữ tương tác.
gung - Phục hồi Monica

1
@ hans0l0, đó sẽ là một câu hỏi mới tốt hơn là thông tin được chôn ở đây trong các bình luận; bạn có thể liên kết đến điều này cho bối cảnh. Tóm lại, nó là giá trị trung bình của các mức tham chiếu khi tất cả các biến liên tục là = 0.
gung - Tái lập Monica

6

Thực tế như bạn đã chỉ ra một cách chính xác, trong trường hợp một biến phân loại duy nhất (có khả năng lớn hơn 2 cấp), thực sự là giá trị trung bình của tham chiếu và khác là sự khác biệt giữa giá trị trung bình của cấp đó và giá trị trung bình của tài liệu tham khảo.β^0β^

Nếu chúng tôi mở rộng một chút ví dụ của bạn để đưa cấp độ thứ ba vào danh mục chủng tộc (nói là người châu Á ) và chọn Trắng làm tham chiếu, thì bạn sẽ có:

  • β^0= =x¯WhTôite
  • β^Btôimộtck= =x¯Btôimộtck-x¯WhTôite
  • β^MộtSTôimộtn= =x¯MộtSTôimộtn-x¯WhTôite

Trong trường hợp này, việc giải thích tất cả là dễ dàng và việc tìm giá trị trung bình của bất kỳ cấp nào của danh mục là đơn giản. Ví dụ:β^

  • x¯MộtSTôimộtn= =β^MộtSTôimộtn+β^0

Thật không may trong trường hợp có nhiều biến phân loại, việc giải thích chính xác cho phần chặn không còn rõ ràng nữa (xem ghi chú ở cuối). Khi có n loại, mỗi loại có nhiều cấp độ và một cấp độ tham chiếu (ví dụ: TrắngNam trong ví dụ của bạn), hình thức chung cho việc chặn là:

β^0= =ΣTôi= =1nx¯reference,Tôi-(n-1)x¯,
trong đó
x¯reference,Tôi là giá trị trung bình của mức tham chiếu của biến phân loại thứ i,
x¯ là giá trị trung bình của toàn bộ tập dữ liệu

Người kia cũng giống như với một thể loại duy nhất: họ là những chênh lệch giữa giá trị trung bình của mức độ đó, chủng loại và giá trị trung bình về mức độ tham khảo cùng loại.β^

Nếu chúng tôi quay lại ví dụ của bạn, chúng tôi sẽ nhận được:

  • β^0= =x¯WhTôite+x¯Mmộttôie-x¯
  • β^Btôimộtck= =x¯Btôimộtck-x¯WhTôite
  • β^MộtSTôimộtn= =x¯MộtSTôimộtn-x¯WhTôite
  • β^Femmộttôie= =x¯Femmộttôie-x¯Mmộttôie

Bạn sẽ nhận thấy rằng giá trị trung bình của các loại chéo (ví dụ: con đực trắng ) không có trong bất kỳ . Như một vấn đề thực tế, bạn không thể tính toán chính xác các phương tiện này từ kết quả của loại hồi quy này .β^

Lý do cho điều này là, số lượng biến dự đoán (nghĩa là ) nhỏ hơn số lượng danh mục chéo (miễn là bạn có nhiều hơn 1 danh mục) nên không phải lúc nào cũng phù hợp hoàn hảo. Nếu chúng tôi quay lại ví dụ của bạn, số lượng dự đoán là 4 (ví dụ và ) trong khi số lượng danh mục chéo là 6.β^β^0, β^Btôimộtck, β^MộtSTôimộtnβ^Femmộttôie

Ví dụ số

Cho tôi mượn từ @Gung cho một ví dụ số đóng hộp:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

Trong trường hợp này, các mức trung bình khác nhau sẽ được tính toán trong là:β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Chúng ta có thể so sánh những con số này với kết quả hồi quy:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

Như bạn có thể thấy, khác nhau được ước tính từ hồi quy tất cả đều phù hợp với các công thức được đưa ra ở trên. Ví dụ: được cung cấp bởi: Cung cấp:β^β^0

β^0= =x¯WhTôite+x¯Mmộttôie-x¯
1.5 + 5.333333 - 6.166667
# 0.66666

Lưu ý về sự lựa chọn độ tương phản

Một lưu ý cuối cùng về chủ đề này, tất cả các kết quả được thảo luận ở trên liên quan đến hồi quy phân loại sử dụng xử lý tương phản (loại tương phản mặc định trong R). Có nhiều loại tương phản khác nhau có thể được sử dụng (đáng chú ý là Helmert và sum) và nó sẽ thay đổi cách hiểu của khác nhau . Tuy nhiên, Nó sẽ không thay đổi dự đoán cuối cùng từ hồi quy (ví dụ: dự đoán cho nam giới Trắng luôn giống nhau cho dù bạn sử dụng loại tương phản nào).β^

Sở thích cá nhân của tôi là tổng tương phản vì tôi cảm thấy rằng việc giải thích khái quát tốt hơn khi có nhiều danh mục. Đối với loại tương phản này, không có mức tham chiếu, hay đúng hơn là tham chiếu là giá trị trung bình của toàn bộ mẫu và bạn có sau đây:β^contr.Sbạnmβ^contr.Sbạnm

  • β^0contr.Sbạnm= =x¯
  • β^Tôicontr.Sbạnm= =x¯Tôi-x¯

Nếu chúng ta quay lại ví dụ trước, bạn sẽ có:

  • β^0contr.Sbạnm= =x¯
  • β^WhTôitecontr.Sbạnm= =x¯WhTôite-x¯
  • β^Btôimộtckcontr.Sbạnm= =x¯Btôimộtck-x¯
  • β^MộtSTôimộtncontr.Sbạnm= =x¯MộtSTôimộtn-x¯
  • β^Mmộttôiecontr.Sbạnm= =x¯Mmộttôie-x¯
  • β^Femmộttôiecontr.Sbạnm= =x¯Femmộttôie-x¯

Bạn sẽ nhận thấy rằng vì TrắngNam không còn ở mức tham chiếu nữa, chúng không còn 0. Thực tế là đây là 0 đặc trưng cho điều trị tương phản.β^contr.Sbạnm

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.