Chia tay hoặc hồi quy một biến phân loại?


9

Thỉnh thoảng tôi thấy trong văn học có một biến phân loại như tình dục là một phần của Hồi giáo hoặc Hồi quy hồi quy trong phân tích hồi quy (hiệu ứng cố định hoặc hiệu ứng hỗn hợp). Tôi gặp rắc rối với các vấn đề thực tế sau đây liên quan đến một tuyên bố như vậy:

(1) Thông thường phương pháp mã hóa không được đề cập trong bài báo. Một biến như vậy phải được mã hóa bằng các giá trị định lượng và tôi cảm thấy cách hợp lý nên là mã hóa hiệu ứng (ví dụ: male = 1, Female = -1) để có thể đạt được sự tham gia với các hiệu ứng khác được hiểu theo nghĩa lớn của cả hai giới các nhóm. Một mã hóa khác nhau có thể đưa ra một cách giải thích khác nhau (và không mong muốn). Ví dụ, mã hóa giả (ví dụ: male = 0, male = 1) sẽ để lại các hiệu ứng khác liên quan đến nam giới, không phải là ý nghĩa lớn. Ngay cả việc tập trung vào biến giả mã này cũng có thể không hoạt động tốt cho mục đích hợp tác của họ nếu có số lượng đối tượng không đồng đều giữa hai nhóm. Tôi có đúng không?

(2) Nếu bao gồm hiệu ứng của một biến phân loại như vậy trong mô hình, việc kiểm tra các hiệu ứng của nó trước tiên có vẻ cần thiết và nên được thảo luận trong bối cảnh vì hậu quả của nó đối với việc giải thích các hiệu ứng khác. Điều gây phiền toái cho tôi là đôi khi các tác giả thậm chí không đề cập đến tầm quan trọng của hiệu ứng tình dục, chứ đừng nói đến bất kỳ quá trình xây dựng mô hình nào. Nếu hiệu ứng giới tính tồn tại, một câu hỏi tiếp theo tự nhiên là liệu có bất kỳ tương tác nào tồn tại giữa giới tính và các biến khác trong mô hình không? Nếu không có hiệu ứng tình dục và không có tương tác tồn tại, tình dục nên được loại bỏ khỏi mô hình.

(3) Nếu quan hệ tình dục được coi là không có hứng thú với các tác giả đó, điểm quan trọng của việc đưa nó vào mô hình ở nơi đầu tiên mà không kiểm tra tác dụng của nó là gì? Liệu việc đưa vào một biến phân loại như vậy (và tiêu tốn một mức độ tự do đối với hiệu ứng cố định của tình dục) có đạt được bất cứ điều gì cho mục đích hợp tác của họ khi hiệu ứng tình dục tồn tại (kinh nghiệm hạn chế của tôi nói về cơ bản là không)?


Tôi có thể nói gì, tất cả các điểm của bạn là hợp lệ, vì vậy có thể các tác giả của các bài báo đang đề cập đang làm sai. Không có nhiều bối cảnh thì không thể nói bất cứ điều gì cụ thể.
mpiktas

Câu trả lời:


4

Tôi không nghĩ (1) làm cho bất kỳ sự khác biệt. Ý tưởng là một phần từ phản ứng các dự đoán khác về tác động của Tình dục. Sẽ không có vấn đề gì nếu bạn mã 0, 1 (Tương phản điều trị) hoặc 1, -1 (Tổng tương phản bằng 0) vì các mô hình biểu thị cùng một "lượng" thông tin sau đó bị xóa. Đây là một ví dụ trong R:

set.seed(1)
dat <- data.frame(Size = c(rnorm(20, 180, sd = 5), 
                           rnorm(20, 170, sd = 5)),
                  Sex = gl(2,20,labels = c("Male","Female")))

options(contrasts = c("contr.treatment", "contr.poly"))
r1 <- resid(m1 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.sum", "contr.poly"))
r2 <- resid(m2 <- lm(Size ~ Sex, data = dat))
options(contrasts = c("contr.treatment", "contr.poly"))

Từ hai mô hình này, phần dư là như nhau và đó là thông tin mà người ta sẽ đưa vào mô hình tiếp theo (cộng với điều tương tự loại bỏ hiệu ứng Giới tính tạo thành các đồng biến khác):

> all.equal(r1, r2)
[1] TRUE

Tôi tình cờ đồng ý với (2), nhưng vào (3) nếu Sex không được các nhà nghiên cứu quan tâm, họ vẫn có thể muốn kiểm soát các hiệu ứng Giới tính, vì vậy mô hình null của tôi sẽ là một mô hình bao gồm cả Sex và tôi thử nghiệm các lựa chọn thay thế với các đồng biến bổ sung cộng với tình dục. Quan điểm của bạn về tương tác và kiểm tra tác động của các biến không thú vị là một quan sát quan trọng và hợp lệ.


2

Đúng là sự lựa chọn phương pháp mã hóa ảnh hưởng đến cách bạn diễn giải các hệ số mô hình. Theo kinh nghiệm của tôi mặc dù (và tôi nhận ra điều này có thể phụ thuộc vào lĩnh vực của bạn), mã hóa giả rất phổ biến đến mức mọi người không gặp vấn đề lớn khi xử lý nó.

Trong ví dụ này, nếu nam = 0 và nữ = 1, thì về cơ bản, phần chặn là phản ứng trung bình đối với nam và hệ số Giới tính là tác động đến phản ứng do là nữ ("hiệu ứng nữ"). Mọi thứ trở nên phức tạp hơn một khi bạn đang xử lý các biến phân loại với hơn hai cấp độ, nhưng sơ đồ giải thích mở rộng theo cách tự nhiên.

Điều này cuối cùng có nghĩa là bạn nên cẩn thận rằng mọi kết luận thực tế bạn rút ra từ phân tích không phụ thuộc vào phương pháp mã hóa được sử dụng.


1

Hãy nhớ rằng mặc dù lỗi đó sẽ được giảm bằng cách thêm bất kỳ yếu tố gây nghiện nào. Ngay cả khi giới tính không phù hợp trong mô hình của bạn, nó vẫn có thể hữu ích trong nghiên cứu. Signficance có thể được tìm thấy trong bất kỳ yếu tố nào nếu kích thước mẫu đủ lớn. Ngược lại, nếu kích thước mẫu không đủ lớn, hiệu ứng có thể không thể kiểm tra được. Do đó xây dựng mô hình tốt và phân tích sức mạnh.


1

Có vẻ như tôi không thể thêm một bình luận dài trực tiếp vào câu trả lời của Tiến sĩ Simpson. Xin lỗi tôi phải đặt câu trả lời của tôi ở đây.

Tôi thực sự đánh giá cao phản ứng của bạn, Tiến sĩ Simpson! Tôi nên làm rõ lập luận của tôi một chút. Điều tôi gặp khó khăn với việc kinh doanh bên cạnh không phải là vấn đề lý thuyết mà là vấn đề thực tế. Giả sử mô hình hồi quy tuyến tính có dạng sau

y = a + b * Giới tính + hiệu ứng cố định khác + dư

Tôi hoàn toàn đồng ý rằng, từ góc độ lý thuyết, bất kể chúng ta định lượng biến giới tính như thế nào, chúng ta sẽ có cùng số dư. Thậm chí nếu tôi mã các đối tượng với một số con số điên như nam = 10,7 và nữ = 53,65, tôi vẫn sẽ nhận được các phần dư giống như r1r2trong ví dụ của bạn. Tuy nhiên, những gì quan trọng trong các giấy tờ không phải là về phần dư. Thay vào đó, trọng tâm là giải thích về đánh chặn avà các hiệu ứng cố định khác trong mô hình ở trên và điều này có thể gây ra vấn đề khi tham gia. Với trọng tâm như vậy, làm thế nào Sex được mã hóa dường như có một hậu quả lớn đối với việc giải thích tất cả các hiệu ứng khác trong mô hình trên. Với mã hóa giả (options(contrasts = c("contr.treatment", "contr.poly"))trong R), tất cả các hiệu ứng khác ngoại trừ 'b' nên được hiểu là được liên kết với nhóm giới tính có mã "0" (nam). Với mã hóa hiệu ứng (tính options(contrasts = c("contr.sum", "contr.poly"))bằng R), tất cả các hiệu ứng khác ngoại trừ blà các hiệu ứng trung bình cho toàn bộ dân số bất kể giới tính.

Sử dụng ví dụ của bạn, mô hình đơn giản hóa để

y = a + b * Giới tính + dư.

Vấn đề có thể được thấy rõ với những điều sau đây về ước tính đánh chặn a:

> summary(m1)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 180.9526     0.9979 181.332  < 2e-16 ***

> summary(m2)

Call: lm(formula = Size ~ Sex, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 175.4601     0.7056 248.659  < 2e-16 ***

Cuối cùng, có vẻ như tôi phải đồng ý rằng đối số ban đầu của tôi (3) có thể không hợp lệ. Tiếp tục ví dụ của bạn,

> options(contrasts = c("contr.sum", "contr.poly"))
> m0 <- lm(Size ~ 1, data = dat)
> summary(m0)

Call: lm(formula = Size ~ 1, data = dat)

...

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  175.460      1.122   156.4   <2e-16 ***

Có vẻ như bao gồm cả Giới tính trong mô hình không thay đổi ước tính hiệu ứng, nhưng nó làm tăng sức mạnh thống kê do sự thay đổi nhiều hơn trong dữ liệu được tính thông qua hiệu ứng Giới tính. Ảo tưởng trước đây của tôi trong tranh luận (3) có thể đến từ một tập dữ liệu với cỡ mẫu rất lớn trong đó việc thêm Sex vào mô hình không thực sự thay đổi nhiều về tầm quan trọng của các hiệu ứng khác.

Tuy nhiên, trong phân tích loại ANOVA cân bằng thông thường, một yếu tố giữa các chủ thể như Giới tính không có hậu quả đối với các hiệu ứng không liên quan đến yếu tố này do sự phân chia trực giao của phương sai?


2
Có lẽ chúng ta có sự khác biệt trong việc chia tay? Trong tâm trí của tôi, nó sẽ liên quan đến i) e1 <- Resid (lm (y ~ Sex)), ii) e2 <- Resid (lm (X ~ Sex)), và cuối cùng là iii) lm (e1 ~ e2). i) phần dư y liên quan đến Giới tính, ii) phần dư cho các hiệp phương sai khác (X) đối với Giới tính, iii) phù hợp với hồi quy từng phần. Trong trường hợp đó, không quan trọng bằng cách nào một mã giới tính. Ở trên, chúng tôi không thực sự quan tâm đến ảnh hưởng của Tình dục cũng như việc giải thích các hệ số. Nếu chúng ta đang xây dựng mô hình, tức là kiểm soát Sex như một Null, thì cách chúng ta tham gia mô hình một sự cân nhắc quan trọng, tuy nhiên.
Gavin Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.