Làm thế nào chính xác một điều khiển một người dùng cho các biến khác khác?


141

Dưới đây là bài viết thúc đẩy câu hỏi này: Sự thiếu kiên nhẫn có làm chúng ta béo lên không?

Tôi thích bài viết này và nó thể hiện độc đáo khái niệm kiểm soát đối với các biến số khác (IQ, sự nghiệp, thu nhập, tuổi, v.v.) để cách ly tốt nhất mối quan hệ thực sự giữa chỉ 2 biến trong câu hỏi.

Bạn có thể giải thích cho tôi cách bạn thực sự kiểm soát các biến trên một tập dữ liệu điển hình không?

Ví dụ: nếu bạn có 2 người có cùng mức độ thiếu kiên nhẫn và BMI, nhưng thu nhập khác nhau, bạn sẽ xử lý những dữ liệu này như thế nào? Bạn có phân loại chúng thành các nhóm nhỏ khác nhau có thu nhập, sự kiên nhẫn và BMI tương tự nhau không? Nhưng, cuối cùng, có hàng tá biến số để kiểm soát (IQ, nghề nghiệp, thu nhập, tuổi, v.v.) Làm thế nào để bạn tổng hợp các nhóm này (có khả năng) 100? Trong thực tế, tôi có cảm giác cách tiếp cận này đang sủa sai cây, bây giờ tôi đã kiểm chứng nó.

Cảm ơn vì đã làm sáng tỏ bất cứ điều gì tôi muốn nói đến đáy của một vài năm nay ...!


3
Epi & Bernd, Cảm ơn rất nhiều vì đã cố gắng trả lời điều này. Thật không may, những câu trả lời này là một bước nhảy vọt lớn từ câu hỏi của tôi, và nằm trên đầu tôi. Có lẽ tôi không có kinh nghiệm với R và chỉ là nền tảng Thống kê 101 cơ bản. Cũng giống như phản hồi về việc giảng dạy của bạn, một khi bạn trừu tượng hóa khỏi BMI, tuổi tác, sự thiếu kiên nhẫn, v.v ... để "đồng biến" et al, bạn hoàn toàn mất tôi. Tự động tạo dữ liệu giả cũng không hữu ích trong việc làm rõ các khái niệm. Trong thực tế, nó làm cho nó tồi tệ hơn. Thật khó để học về dữ liệu giả không có ý nghĩa vốn có, trừ khi bạn đã biết nguyên tắc được giải thích (ví dụ: Giáo viên biết tôi
JackOf ALL

7
Cảm ơn bạn đã đặt câu hỏi về tầm quan trọng cơ bản này, @JackOf ALL - trang web sẽ không đầy đủ nếu không có câu hỏi dọc theo những dòng này - tôi đã 'ưu ái' câu hỏi này. Các câu trả lời ở đây rất hữu ích với tôi và rõ ràng nhiều người khác dựa trên số lượng upvote. Nếu, sau khi suy nghĩ về điều này, bạn đã tìm thấy câu trả lời hữu ích cho bản thân (hoặc câu trả lời cho bất kỳ câu hỏi nào của bạn), tôi khuyến khích bạn sử dụng upvote của mình và chấp nhận câu trả lời nếu bạn thấy nó dứt khoát. Điều này có thể được thực hiện bằng cách nhấp vào các đường cong chuông hướng lên nhỏ bên cạnh câu trả lời và dấu kiểm tương ứng.
Macro

4
Đây không phải là một câu trả lời hoàn chỉnh hay bất cứ điều gì, nhưng tôi nghĩ rằng thật đáng để đọc "Hãy đặt Rác-Can-Regressions và Garbage-Can Proits Where They Belong" của Chris Achen. (Liên kết PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Điều này áp dụng cho cả hai cách tiếp cận Bayesian và Thường xuyên như nhau. Chỉ cần ném các thuật ngữ vào thiết lập của bạn là không đủ để "kiểm soát" các hiệu ứng, nhưng thật đáng buồn đây là điều vượt qua để kiểm soát trong rất nhiều tài liệu.
ely

9
Bạn hỏi " cách phần mềm máy tính điều khiển cho tất cả các biến cùng một lúc về mặt toán học ". Bạn cũng nói "Tôi cần một câu trả lời không liên quan đến công thức". Tôi không thấy làm thế nào có thể thực sự làm cả hai cùng một lúc. Ít nhất không phải không có nguy cơ nghiêm trọng để lại cho bạn với trực giác thiếu sót.
Glen_b

2
Tôi ngạc nhiên câu hỏi này đã không được chú ý nhiều hơn. Tôi đồng ý với nhận xét của OP rằng các câu hỏi khác trên trang web không bao gồm chính xác vấn đề cụ thể được đưa ra ở đây. @Jen, câu trả lời rất ngắn cho câu hỏi (thứ hai) của bạn là nhiều hiệp phương sai thực sự được tách ra đồng thời và không lặp lại như bạn mô tả. Bây giờ tôi sẽ suy nghĩ về một câu trả lời chi tiết và trực quan hơn cho những câu hỏi này sẽ như thế nào.
Jake Westfall

Câu trả lời:


124

Có nhiều cách để kiểm soát các biến.

Cách dễ nhất và một trong những thứ bạn nghĩ ra là phân tầng dữ liệu của bạn để bạn có các nhóm phụ có đặc điểm tương tự - sau đó có các phương pháp để gộp các kết quả đó lại với nhau để có một "câu trả lời" duy nhất. Điều này hoạt động nếu bạn có một số lượng nhỏ các biến bạn muốn kiểm soát, nhưng như bạn đã phát hiện ra một cách chính xác, điều này nhanh chóng sụp đổ khi bạn chia dữ liệu của mình thành các phần nhỏ hơn và nhỏ hơn.

Một cách tiếp cận phổ biến hơn là bao gồm các biến bạn muốn kiểm soát trong mô hình hồi quy. Ví dụ: nếu bạn có mô hình hồi quy có thể được mô tả theo khái niệm là:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Ước tính bạn sẽ nhận được cho Sự thiếu kiên nhẫn sẽ là tác động của Sự thiếu kiên nhẫn trong các cấp độ của các đồng biến khác - hồi quy cho phép bạn cơ bản trôi chảy ở những nơi bạn không có nhiều dữ liệu (vấn đề với phương pháp phân tầng), mặc dù điều này nên được thực hiện thận trọng

Vẫn có những cách kiểm soát phức tạp hơn đối với các biến khác, nhưng tỷ lệ cược là khi ai đó nói "kiểm soát các biến khác", điều đó có nghĩa là chúng được đưa vào mô hình hồi quy.

Được rồi, bạn đã hỏi một ví dụ bạn có thể làm việc để xem điều này diễn ra như thế nào. Tôi sẽ hướng dẫn bạn từng bước một. Tất cả bạn cần là một bản sao của R được cài đặt.

Đầu tiên, chúng ta cần một số dữ liệu. Cắt và dán các đoạn mã sau vào R. Hãy nhớ rằng đây là một ví dụ giả định tôi đã tạo ra tại chỗ, nhưng nó cho thấy quá trình.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Đó là dữ liệu của bạn. Lưu ý rằng chúng ta đã biết mối quan hệ giữa kết quả, độ phơi sáng và hiệp phương sai - đó là điểm của nhiều nghiên cứu mô phỏng (trong đó đây là một ví dụ cực kỳ cơ bản. Bạn bắt đầu với một cấu trúc bạn biết và bạn chắc chắn rằng phương pháp của bạn có thể giúp bạn có câu trả lời đúng

Bây giờ sau đó, vào mô hình hồi quy. Gõ như sau:

lm(outcome~exposure)

Bạn có nhận được Intercept = 2.0 và phơi sáng = 0.6766 không? Hoặc một cái gì đó gần với nó, được đưa ra sẽ có một số biến thể ngẫu nhiên trong dữ liệu? Tốt - câu trả lời này là sai. Chúng tôi biết đó là sai. Tại sao nó sai? Chúng tôi đã không kiểm soát được một biến ảnh hưởng đến kết quả và mức độ phơi nhiễm. Đó là một biến nhị phân, biến nó thành bất cứ thứ gì bạn muốn - giới tính, người hút thuốc / không hút thuốc, v.v.

Bây giờ chạy mô hình này:

lm(outcome~exposure+covariate)

Lần này, bạn sẽ nhận được các hệ số của Chặn = 2,00, phơi sáng = 0,50 và hệ số 0,25. Điều này, như chúng ta biết, là câu trả lời đúng. Bạn đã kiểm soát các biến khác.

Bây giờ, điều gì xảy ra khi chúng ta không biết nếu chúng ta quan tâm đến tất cả các biến mà chúng ta cần (chúng ta không bao giờ thực sự làm)? Điều này được gọi là gây nhiễu còn lại , và nó là mối quan tâm trong hầu hết các nghiên cứu quan sát - rằng chúng tôi đã kiểm soát không hoàn hảo, và câu trả lời của chúng tôi, trong khi gần đúng, không chính xác. Điều đó có giúp gì hơn không?


Cảm ơn. Bất cứ ai cũng biết một ví dụ hồi quy đơn giản dựa trên ví dụ trực tuyến hoặc trong sách giáo khoa mà tôi có thể làm việc thông qua?
JackOf ALL

@JackOf ALL Có thể có hàng trăm ví dụ như vậy - lĩnh vực / loại câu hỏi nào bạn quan tâm và bạn có thể sử dụng gói phần mềm nào?
Fomite

Vâng, bất kỳ ví dụ học tập / kế hoạch là tốt với tôi. Tôi có Excel, có thể thực hiện hồi quy đa biến, đúng không? Hay tôi cần một cái gì đó như R để làm điều này?
JackOf ALL

10
+1 Để trả lời điều này mà không có sự tiêu cực mà tôi sẽ sử dụng. :) Theo cách nói điển hình, kiểm soát các biến khác có nghĩa là các tác giả đã ném chúng vào hồi quy. Điều đó thực sự không có nghĩa là những gì họ nghĩ có nghĩa là nếu họ không xác nhận rằng các biến tương đối độc lập và toàn bộ cấu trúc mô hình (thường là một loại GLM nào đó) hoàn toàn có cơ sở. Nói tóm lại, quan điểm của tôi là bất cứ khi nào ai đó sử dụng cụm từ này, điều đó có nghĩa là họ có rất ít manh mối về thống kê và người ta nên tính lại kết quả bằng phương pháp phân tầng mà bạn đưa ra.
Lặp lại

7
@SibbsGambled Bạn sẽ lưu ý rằng người hỏi ban đầu yêu cầu một ví dụ làm việc đơn giản.
Fomite

56
  1. Giới thiệu

    Tôi thích câu trả lời của @ EpiGrad (+1) nhưng hãy để tôi đưa ra một quan điểm khác. Trong phần sau tôi sẽ đề cập đến tài liệu PDF này: "Phân tích hồi quy bội: Ước tính" , trong đó có phần "Giải thích về một phần của hồi quy" (trang 83f.). Thật không may, tôi không biết ai là tác giả của chương này và tôi sẽ gọi nó là ĐĂNG KÝ. Một lời giải thích tương tự có thể được tìm thấy trong Kohler / Kreuter (2009) "Phân tích dữ liệu sử dụng Stata" , chương 8.2.3 "" dưới sự kiểm soát "nghĩa là gì?".

    Tôi sẽ sử dụng ví dụ của @ EpiGrad để giải thích phương pháp này. Mã R và kết quả có thể được tìm thấy trong Phụ lục.

    Cũng cần lưu ý rằng "kiểm soát các biến khác" chỉ có ý nghĩa khi các biến giải thích có tương quan vừa phải (collinearity). Trong ví dụ đã nói ở trên, tương quan Thời điểm-Sản phẩm giữa exposurecovariatelà 0,50, nghĩa là,

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Tôi giả sử rằng bạn có một sự hiểu biết cơ bản về khái niệm phần dư trong phân tích hồi quy. Dưới đây là lời giải thích của Wikipedia : "Nếu một người chạy hồi quy trên một số dữ liệu, thì độ lệch của các quan sát biến phụ thuộc từ hàm được trang bị là phần dư".

  3. "Dưới sự kiểm soát" nghĩa là gì?

    Kiểm soát biến covariate, hiệu ứng (trọng số hồi quy) của exposurebật outcomecó thể được mô tả như sau (Tôi cẩu thả và bỏ qua hầu hết các chỉ số và tất cả các mũ, vui lòng tham khảo văn bản được đề cập ở trên để mô tả chính xác):

    β1=residi1yiresidi12

    residi1 là dư khi chúng ta thoái exposuretrên covariate, tức là,

    exposure=const.+βcovariatecovariate+resid

    "Phần dư [..] là một phần của không tương thích với . [...] Do đó, đo mối quan hệ mẫu giữa và sau khi đã được chia tay "(ĐĂNG KÝ 84). "Partialled out" có nghĩa là "được kiểm soát". x i 2 β 1 y x 1 x 2xi1xi2β^1yx1x2

    Tôi sẽ chứng minh ý tưởng này bằng cách sử dụng dữ liệu mẫu của @ EpiGrad. Trước tiên, tôi sẽ thoái exposuretrên covariate. Vì tôi chỉ quan tâm đến phần dư lmEC.resid, tôi bỏ qua đầu ra.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Bước tiếp theo là hồi quy outcomecác phần dư này ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Như bạn có thể thấy, trọng số hồi quy cho lmEC.resid(xem cột Ước tính, ) trong hồi quy đơn giản này bằng với trọng số hồi quy bội , cũng là (xem câu trả lời của @ EpiGrad hoặc đầu ra R phía dưới).βlmEC.resid=0.50covariate0.50

ruột thừa

Mã R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

Đầu ra R

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Chương đó trông giống như Baby Wooldridge (còn gọi là Kinh tế lượng giới thiệu: Cách tiếp cận hiện đại của Jeffrey M. Wooldridge)
Dimitriy V. Masterov

2
Tôi có thể đang hiểu nhầm điều gì đó, nhưng tại sao bạn không cần phải hồi quy kết quả trên đồng biến và cuối cùng là hồi quy các kết quả còn lại trên phần dư tiếp xúc?
hlinee

@hlinee nói đúng. Bạn có thể giải thích tại sao bạn không làm điều này?
Parseltongue

41

Tất nhiên một số toán học sẽ được tham gia, nhưng nó không nhiều: Euclid sẽ hiểu nó rất rõ. Tất cả các bạn thực sự cần phải biết là làm thế nào để thêmrescale vectơ. Mặc dù ngày nay nó có tên là "đại số tuyến tính", bạn chỉ cần hình dung nó theo hai chiều. Điều này cho phép chúng ta tránh các máy móc ma trận của đại số tuyến tính và tập trung vào các khái niệm.


Câu chuyện hình học

Trong hình đầu tiên, là tổng của và . (Vectơ được chia tỷ lệ theo hệ số số ; Chữ cái Hy Lạp (alpha), (beta) và (gamma) sẽ đề cập đến các yếu tố tỷ lệ số như vậy.)yy1αx1x1ααβγ

Hình 1

Hình này thực sự bắt đầu với các vectơ gốc (được hiển thị dưới dạng đường thẳng) và . "Kết hợp" bình phương nhỏ nhất của với được tìm thấy bằng cách lấy bội số của gần nhất với trong mặt phẳng của hình. Đó là cách được tìm thấy. Lấy trận đấu này ra khỏi để lại , phần của đối với . (Dấu chấm " " sẽ liên tục chỉ ra các vectơ nào đã được "khớp", "lấy ra" hoặc "được kiểm soát.")x1yyx1x1yαyy1yx1

Chúng ta có thể các vectơ khác với . Dưới đây là hình ảnh trong đó được khớp với , biểu thị nó dưới dạng nhiều của cộng với còn lại của nó :x1x2x1βx1x21

Hình 2

(Không quan trọng rằng mặt phẳng chứa và có thể khác với mặt phẳng chứa và : hai hình này được lấy độc lập với nhau. Tất cả chúng được đảm bảo có điểm chung là vectơ .) Tương tự, bất kỳ số nào các vectơ có thể được khớp với .x1x2x1yx1x3,x4,x1

Bây giờ hãy xem xét mặt phẳng chứa hai phần dư và . Tôi sẽ định hướng hình ảnh để làm theo chiều ngang, giống như tôi đã định hướng các hình ảnh trước đó để tạo theo chiều ngang, vì lần này sẽ đóng vai trò của trình so khớp:y1x21x21x1x21

Hình 3

Quan sát rằng trong mỗi ba trường hợp, phần dư vuông góc với khớp. (Nếu không, chúng tôi có thể điều chỉnh trận đấu để đến gần hơn với , hoặc .)yx2y1

Ý tưởng chính là vào thời điểm chúng ta đến hình cuối cùng, cả hai vectơ có liên quan ( và ) đã vuông góc với , bằng cách xây dựng. Do đó, mọi điều chỉnh tiếp theo đối liên quan đến các thay đổi đều vuông góc với . Do đó, trận đấu mới và phần dư mới vẫn vuông góc với .x21y1x1y1x1γx21y12x1

(Nếu các vectơ khác có liên quan, chúng tôi sẽ tiến hành theo cách tương tự để khớp với phần dư của chúng với .)x31,x41,x2

Có một điểm quan trọng hơn để thực hiện. Cấu trúc này đã tạo ra một phần dưy12 , vuông góc với cả và . Điều này có nghĩa rằng là cũng dư trong không gian (ba chiều vương Euclide) kéo dài bởi và . Đó là, quá trình khớp và lấy phần dư hai bước này phải tìm được vị trí trong mặt phẳng gần nhất với . Vì trong mô tả hình học này, việc và xuất hiện trước không thành vấn đề , chúng tôi kết luận rằngx1x2y12x1,x2,yx1,x2yx1x2nếu quá trình đã được thực hiện theo thứ tự khác, bắt đầu với là công cụ đối sánh và sau đó sử dụng , kết quả sẽ giống nhau.x2x1

(Nếu có thêm các vectơ, chúng tôi sẽ tiếp tục quá trình "lấy ra một công cụ đối sánh" này cho đến khi mỗi vectơ đó lần lượt là đối sánh. máy bay .)


Áp dụng cho hồi quy bội

Quá trình hình học này có một giải thích hồi quy trực tiếp, bởi vì các cột số hoạt động chính xác như các vectơ hình học. Chúng có tất cả các tính chất mà chúng ta yêu cầu của vectơ (tiên đề) và do đó có thể được nghĩ ra và thao tác theo cùng một cách với độ chính xác và chặt chẽ toán học hoàn hảo. Trong cài đặt hồi quy bội với các biếnX1 , , và , mục tiêu là để tìm một sự kết hợp của và ( vv ) mà đến gần nhất với . Về mặt hình học, tất cả các kết hợp và như vậy ( v.v.X2,YX1X2YX1X2) tương ứng với các điểm trong không gian . Ghép nhiều hệ số hồi quy không gì khác hơn là các vectơ chiếu ("khớp"). Đối số hình học đã chỉ ra rằngX1,X2,

  1. Kết hợp có thể được thực hiện tuần tự và

  2. Thứ tự phù hợp được thực hiện không quan trọng.

Quá trình "lấy ra" một công cụ đối sánh bằng cách thay thế tất cả các vectơ khác bằng phần dư của chúng thường được gọi là "kiểm soát" đối với công cụ đối sánh. Như chúng ta đã thấy trong các hình, một khi một công cụ đối sánh đã được kiểm soát, tất cả các tính toán tiếp theo sẽ thực hiện các điều chỉnh vuông góc với công cụ đối sánh đó. Nếu bạn thích, bạn có thể nghĩ "kiểm soát" là "kế toán (theo nghĩa bình phương nhỏ nhất) cho sự đóng góp / ảnh hưởng / hiệu ứng / liên kết của một công cụ đối sánh trên tất cả các biến khác."


Người giới thiệu

Bạn có thể thấy tất cả điều này trong hành động với dữ liệu và mã làm việc trong câu trả lời tại https://stats.stackexchange.com/a/46508 . Câu trả lời đó có thể hấp dẫn hơn đối với những người thích số học hơn hình ảnh máy bay. (Số học để điều chỉnh các hệ số khi các đối sánh được đưa vào một cách tuần tự là đơn giản. Tuy nhiên, ngôn ngữ đối sánh là từ Fred Mosteller và John Tukey.


1
Nhiều hình minh họa dọc theo những dòng này có thể được tìm thấy trong cuốn sách "The Geometry of Multivariate Statistics" (1994) của Wicken. Một số ví dụ là trong câu trả lời này .
caracal

2
@Caracal Cảm ơn bạn đã tham khảo. Ban đầu tôi đã hình dung ra một câu trả lời sử dụng sơ đồ giống như trong câu trả lời của bạn - điều này bổ sung tuyệt vời cho câu trả lời của tôi ở đây - nhưng sau khi tạo ra chúng cảm thấy rằng các hình giả 3D có thể quá phức tạp và mơ hồ là hoàn toàn phù hợp. Tôi hài lòng khi thấy rằng đối số có thể được giảm hoàn toàn thành các phép toán vectơ đơn giản nhất trong mặt phẳng. Cũng có thể chỉ ra rằng việc định tâm dữ liệu sơ bộ là không cần thiết, bởi vì điều đó được xử lý bằng cách bao gồm một vectơ hằng số khác trong số . xi
whuber

1
Tôi thích câu trả lời này vì nó cho trực giác nhiều hơn đại số. BTW, không chắc chắn nếu bạn đã kiểm tra kênh youtube của anh chàng này . Tôi rất thích nó
Haitao Du

3

Có một cuộc thảo luận tuyệt vời cho đến nay về điều chỉnh đồng biến là một phương tiện "kiểm soát các biến khác". Nhưng tôi nghĩ đó chỉ là một phần của câu chuyện. Trên thực tế, có rất nhiều chiến lược dựa trên thiết kế, mô hình và máy học để giải quyết tác động của một số biến gây nhiễu có thể xảy ra. Đây là một khảo sát ngắn gọn về một số chủ đề quan trọng nhất (không điều chỉnh). Mặc dù điều chỉnh là phương tiện "kiểm soát" được sử dụng rộng rãi nhất cho các biến khác, tôi nghĩ rằng một nhà thống kê giỏi nên hiểu rõ về những gì nó làm (và không làm) trong bối cảnh các quy trình và thủ tục khác.

Phù hợp:

Kết hợp là một phương pháp thiết kế phân tích kết hợp trong đó các quan sát được nhóm thành các nhóm 2 người khác nhau về các khía cạnh quan trọng nhất của chúng. Chẳng hạn, bạn có thể lấy mẫu hai cá nhân phù hợp với trình độ học vấn, thu nhập, nhiệm kỳ nghề nghiệp, tuổi tác, tình trạng hôn nhân, v.v.) nhưng lại bất hòa về sự thiếu kiên nhẫn. Đối với phơi nhiễm nhị phân, thử nghiệm ghép đôi đơn giản đủ để kiểm tra sự khác biệt trung bình trong kiểm soát BMI của họ đối với tất cả các tính năng phù hợp. Nếu bạn đang lập mô hình phơi sáng liên tục, một biện pháp tương tự sẽ là mô hình hồi quy thông qua nguồn gốc cho sự khác biệt. Xem Carlin 2005

E[Y1Y2]=β0(X1X2)

Trọng số

Trọng số là một phân tích đơn biến khác, mô hình hóa mối liên quan giữa yếu tố dự đoán liên tục hoặc nhị phân và kết quả để phân phối mức độ phơi nhiễm là đồng nhất giữa các nhóm. Những kết quả này thường được báo cáo là tiêu chuẩn hóa như tỷ lệ tử vong chuẩn hóa theo tuổi cho hai quốc gia hoặc một số bệnh viện. Tiêu chuẩn hóa gián tiếp tính toán phân phối kết quả dự kiến ​​từ tỷ lệ thu được trong dân số "kiểm soát" hoặc "khỏe mạnh" được dự kiến ​​phân phối các tầng trong dân số giới thiệu. Tiêu chuẩn hóa trực tiếp đi theo cách khác. Các phương pháp này thường được sử dụng cho một kết quả nhị phân. Trọng số điểmYXYcác tài khoản về xác suất tiếp xúc nhị phân và kiểm soát các biến đó trong vấn đề đó. Nó tương tự như tiêu chuẩn hóa trực tiếp cho một tiếp xúc. Xem Rothman, Dịch tễ học hiện đại phiên bản thứ 3.

Ngẫu nhiên và Quasirandomization

Đó là một điểm tinh tế, nhưng nếu bạn thực sự có thể ngẫu nhiên mọi người đến một điều kiện thí nghiệm nhất định, thì tác động của các biến khác sẽ được giảm thiểu. Đó là một điều kiện mạnh mẽ hơn đáng kể, bởi vì bạn thậm chí không cần biết những biến số đó là gì. Theo nghĩa đó, bạn đã "kiểm soát" ảnh hưởng của họ. Điều này là không thể trong nghiên cứu quan sát, nhưng hóa ra các phương pháp cho điểm xu hướng tạo ra một biện pháp xác suất đơn giản cho phép tiếp xúc, cho phép người ta cân, điều chỉnh hoặc so khớp người tham gia để họ có thể được phân tích theo cách tương tự như một nghiên cứu ngẫu nhiên . Xem Rosenbaum, Rubin 1983 .

Vi mô

Một cách khác để mô phỏng dữ liệu có thể thu được từ một nghiên cứu ngẫu nhiên là thực hiện vi mô. Ở đây, người ta thực sự có thể chuyển sự chú ý của họ sang các mô hình máy học lớn hơn và tinh vi hơn như mô hình. Một thuật ngữ mà Judea Pearl đã đặt ra mà tôi thích là " Mô hình Oracle ": các mạng phức tạp có khả năng tạo dự đoán và dự báo cho một số tính năng và kết quả. Hóa ra người ta có thể "thu gọn" thông tin của một mô hình nhà tiên tri đó để mô phỏng kết quả trong một đoàn hệ cân bằng của những người đại diện cho một đoàn hệ ngẫu nhiên, cân bằng trong phân phối "biến điều khiển" của họ và sử dụng các thói quen kiểm tra t đơn giản để đánh giá cường độ và độ chính xác của sự khác biệt có thể. Xem Rutter, Zaslavsky và Feuer 2012

Điều chỉnh khớp, trọng số và điều chỉnh đồng biến trong mô hình hồi quy đều ước tính các liên kết giống nhau, và do đó tất cả có thể được coi là cách "kiểm soát" các biến khác .


Hoàn toàn trên đầu của tôi.
JackOf ALL

Đó là một câu trả lời cho câu hỏi đã được hỏi, cuộc thảo luận tốt cho đến nay có phần nghiêng về phía điều chỉnh trong các mô hình đa biến.
AdamO

Các mô hình đa biến, khớp, v.v ... đều là các kỹ thuật hợp lệ, nhưng khi nào thì một nhà nghiên cứu thường sử dụng một kỹ thuật này hơn một kỹ thuật khác?
mnmn

-1

Phần mềm không thực sự kiểm soát các biến. Nếu bạn quen thuộc với ký hiệu ma trận hồi quy , thì bạn có thể nhớ rằng giải pháp bình phương tối thiểu là . Vì vậy, phần mềm đánh giá biểu thức này bằng số bằng các phương pháp đại số tuyến tính tính toán.b = ( X T X ) - 1 X T YY=Xβ+εb=(XTX)1XTY


4
Cảm ơn đã tận dụng cơ hội để cung cấp thông tin này. Đối với câu trả lời để giải quyết các nhu cầu được đưa ra trong câu hỏi, chúng ta sẽ cần biết ý nghĩa của số nguyên tố trong biểu thức thứ hai và ý nghĩa của biểu thức thứ hai. Tôi hiểu rằng độ dốc là sự thay đổi ở một trục so với thay đổi ở trục kia. Hãy nhớ rằng, ký hiệu là một ngôn ngữ đặc biệt ban đầu được tạo ra và học bằng cách sử dụng từ vựng phi công chứng. Tiếp cận những người không biết rằng ngôn ngữ đòi hỏi phải sử dụng các từ khác và đó là thách thức liên tục của việc đưa kiến ​​thức qua các ngành.
Jen

2
Khi bạn đi vào hồi quy đa biến, không có cách nào để tiến hành mà không có đại số tuyến tính. Liên kết Wiki có tất cả các mô tả về các biến. Ở đây, tôi có thể nói rằng biểu thị một chuyển vị của ma trậnBạn sẽ phải học cách xây dựng ma trận thiết kế. Quá dài để giải thích nó ở đây. Đọc Wiki mà tôi đã đăng, nó có rất nhiều thông tin. Trừ khi, bạn hiểu đại số tuyến tính, bạn sẽ không thể trả lời câu hỏi của bạn một cách có ý nghĩa, tôi sợ. XXX
Aksakal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.