Giải thích điều chỉnh mô hình, bằng tiếng Anh

14

Đọc về các phương pháp và kết quả phân tích thống kê, đặc biệt là trong dịch tễ học, tôi rất hay nghe về việc điều chỉnh hoặc kiểm soát các mô hình.

Làm thế nào bạn sẽ giải thích, cho một người không thống kê, mục đích của điều đó? Làm thế nào để bạn giải thích kết quả của bạn sau khi kiểm soát biến nhất định?

Đi bộ nhỏ trong Stata hoặc R, hoặc một con trỏ đến một trực tuyến, sẽ là một viên ngọc thực sự.

regression modeling epidemiology

— radek
nguồn

29

Dễ nhất để giải thích bằng một ví dụ:

Nghiên cứu tưởng tượng cho thấy những người theo dõi trận chung kết World Cup có nhiều khả năng bị đau tim trong trận đấu hoặc trong 24 giờ sau đó so với những người không xem nó. Chính phủ có nên cấm bóng đá từ TV? Nhưng đàn ông có nhiều khả năng xem bóng đá hơn phụ nữ và đàn ông cũng dễ bị đau tim hơn phụ nữ. Vì vậy, mối liên quan giữa xem bóng đá và đau tim có thể được giải thích bởi một yếu tố thứ ba như tình dục ảnh hưởng đến cả hai. (Các nhà xã hội học sẽ phân biệt ở đây giữa giới tính , một cấu trúc văn hóa có liên quan đến việc xem bóng đá và tình dục, một loại sinh học có liên quan đến tỷ lệ đau tim, nhưng cả hai đều rõ ràng có mối tương quan rất mạnh nên tôi sẽ bỏ qua sự khác biệt đó để đơn giản.)

Các nhà thống kê, và đặc biệt là các nhà dịch tễ học, gọi yếu tố thứ ba như vậy là một yếu tố gây nhiễu và hiện tượng gây nhiễu . Cách rõ ràng nhất để loại bỏ vấn đề là xem xét mối liên hệ giữa xem bóng đá và tỷ lệ đau tim ở nam và nữ riêng biệt, hoặc trong biệt ngữ, để phân tầng theo giới tính. Nếu chúng ta thấy rằng sự liên kết (nếu vẫn còn một) là tương tự ở cả hai giới, thì chúng ta có thể chọn kết hợp hai ước tính của hiệp hội giữa hai giới. Ước tính kết quả của mối liên quan giữa xem bóng đá và tỷ lệ đau tim sau đó được cho là được điều chỉnh hoặc kiểm soát cho quan hệ tình dục.

Chúng tôi có lẽ cũng muốn kiểm soát các yếu tố khác theo cách tương tự. Tuổi tác là một điều hiển nhiên khác (trên thực tế, các nhà dịch tễ học phân tầng hoặc điều chỉnh / kiểm soát hầu hết mọi mối liên hệ theo độ tuổi và giới tính). Tầng lớp kinh tế xã hội có lẽ là khác. Những người khác có thể trở nên khó khăn hơn, ví dụ chúng ta có nên điều chỉnh mức tiêu thụ bia trong khi xem trận đấu không? Có lẽ có, nếu chúng ta quan tâm đến ảnh hưởng của sự căng thẳng khi xem trận đấu một mình; nhưng có lẽ là không, nếu chúng ta xem xét việc cấm phát sóng bóng đá World Cup và điều đó cũng sẽ làm giảm tiêu thụ bia. Việc đưa ra biến có phải là một yếu tố gây nhiễu hay không phụ thuộc vào chính xác câu hỏi mà chúng tôi muốn giải quyết, và điều này có thể đòi hỏi suy nghĩ rất cẩn thận và khá phức tạp và thậm chí gây tranh cãi.

Rõ ràng sau đó, chúng tôi có thể muốn điều chỉnh / kiểm soát một số yếu tố, một số yếu tố có thể được đo lường trong một số loại (ví dụ: tầng lớp xã hội) trong khi các yếu tố khác có thể liên tục (ví dụ: tuổi). Chúng ta có thể đối phó với những nhóm liên tục bằng cách chia thành các nhóm (tuổi-), từ đó biến chúng thành các nhóm phân loại. Vì vậy, nói rằng chúng tôi có 2 giới tính, 5 nhóm lớp xã hội và 7 nhóm tuổi. Bây giờ chúng ta có thể xem xét mối liên quan giữa tỷ lệ theo dõi bóng đá và tỷ lệ đau tim ở 2 × 5 × 7 = 70 tầng. Nhưng nếu nghiên cứu của chúng tôi khá nhỏ, vì vậy một số tầng lớp đó chứa rất ít người, chúng tôi sẽ gặp vấn đề với phương pháp này. Và trong thực tế, chúng tôi có thể muốn điều chỉnh cho một tá hoặc nhiều biến. Một cách khác để điều chỉnh / kiểm soát các biến đặc biệt hữu ích khi có nhiều biến được cung cấp bằng phân tích hồi quyvới nhiều biến phụ thuộc, đôi khi được gọi là phân tích hồi quy đa biến . (Có nhiều loại mô hình hồi quy khác nhau tùy thuộc vào loại biến kết quả: hồi quy bình phương nhỏ nhất, hồi quy logistic, hồi quy theo tỷ lệ rủi ro (Cox) ...). Trong các nghiên cứu quan sát, trái ngược với các thí nghiệm, chúng tôi gần như luôn muốn điều chỉnh cho nhiều yếu tố gây nhiễu tiềm năng, do đó, trong điều chỉnh / kiểm soát thực tế đối với các yếu tố gây nhiễu thường được thực hiện bằng phân tích hồi quy, mặc dù cũng có những lựa chọn thay thế khác, như tiêu chuẩn hóa, trọng số, xu hướng phù hợp với điểm số ...

— trên đỉnh
nguồn

3

+1 (mặc dù nó xứng đáng +3 ít nhất) - rất kỹ lưỡng và toàn diện. Làm cho toàn bộ vấn đề rõ ràng hơn nhiều đối với tôi. Cảm ơn!

— radek

"Một cách khác để điều chỉnh / kiểm soát các biến đặc biệt hữu ích khi có nhiều trong số chúng được cung cấp bằng phân tích hồi quy với nhiều biến phụ thuộc, đôi khi được gọi là phân tích hồi quy đa biến." đó có phải là "độc lập" hay tôi hiểu lầm? và là thuật ngữ phổ biến hơn cho điều này, "hồi quy bội"? (tôi biết điều đó đang gây tranh cãi)

— Richard DiSalvo

10

Onestop giải thích nó khá tốt, tôi sẽ chỉ đưa ra một ví dụ R đơn giản với dữ liệu đã tạo. Giả sử x là cân nặng và y là chiều cao và chúng tôi muốn tìm hiểu xem có sự khác biệt giữa nam và nữ hay không:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Bạn có thể thấy rằng nếu không kiểm soát cân nặng (trong anova (lm1)) thì có rất ít sự khác biệt giữa hai giới, nhưng khi cân nặng được tính là đồng biến (được kiểm soát trong lm2) thì sự khác biệt sẽ rõ ràng hơn.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
nguồn