Có phải mối tương quan với nhau cũng có nghĩa là độ dốc trong phân tích hồi quy?


14

Tôi đang đọc một bài báo và tác giả đã viết:

Tác dụng của A, B, C đối với Y được nghiên cứu thông qua việc sử dụng phân tích hồi quy bội. A, B, C được đưa vào phương trình hồi quy với Y là biến phụ thuộc. Phân tích phương sai được trình bày trong Bảng 3. Ảnh hưởng của B đến Y là rất đáng kể, với B tương quan .27 với Y.

Tiếng Anh không phải là tiếng mẹ đẻ của tôi và tôi đã thực sự bối rối ở đây.

Đầu tiên, anh ấy nói anh ấy sẽ chạy một phân tích hồi quy, sau đó anh ấy cho chúng tôi xem phân tích phương sai. Tại sao?

Và sau đó, ông đã viết về hệ số tương quan, đó không phải là từ phân tích tương quan? Hoặc từ này cũng có thể được sử dụng để mô tả độ dốc hồi quy?

Câu trả lời:


17

Đầu tiên, anh ấy nói anh ấy sẽ chạy một phân tích hồi quy, sau đó anh ấy cho chúng tôi xem phân tích phương sai. Tại sao?

Phân tích phương sai (ANOVA) chỉ là một kỹ thuật so sánh phương sai được giải thích bởi mô hình so với phương sai không được giải thích bởi mô hình. Do các mô hình hồi quy có cả thành phần được giải thích và không giải thích được, nên ANOVA có thể được áp dụng cho chúng. Trong nhiều gói phần mềm, kết quả ANOVA được báo cáo thường xuyên với hồi quy tuyến tính. Hồi quy cũng là một kỹ thuật rất linh hoạt. Trong thực tế, cả t-test và ANOVA đều có thể được biểu thị dưới dạng hồi quy; chúng chỉ là một trường hợp đặc biệt của hồi quy.

Ví dụ, đây là một đầu ra hồi quy mẫu. Kết quả là dặm cho mỗi gallon của một số xe hơi và các biến độc lập là liệu chiếc xe trong nước hoặc nước ngoài:

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   13.18
       Model |  378.153515     1  378.153515           Prob > F      =  0.0005
    Residual |  2065.30594    72  28.6848048           R-squared     =  0.1548
-------------+------------------------------           Adj R-squared =  0.1430
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.3558

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   1.foreign |   4.945804   1.362162     3.63   0.001     2.230384    7.661225
       _cons |   19.82692   .7427186    26.70   0.000     18.34634    21.30751
------------------------------------------------------------------------------

Bạn có thể thấy ANOVA được báo cáo ở trên cùng bên trái. Thống kê tổng thể F là 13,18, với giá trị p là 0,0005, cho thấy mô hình có thể dự đoán được. Và đây là đầu ra ANOVA:

                       Number of obs =      74     R-squared     =  0.1548
                       Root MSE      = 5.35582     Adj R-squared =  0.1430

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  378.153515     1  378.153515      13.18     0.0005
                     |
             foreign |  378.153515     1  378.153515      13.18     0.0005
                     |
            Residual |  2065.30594    72  28.6848048   
          -----------+----------------------------------------------------
               Total |  2443.45946    73  33.4720474   

Lưu ý rằng bạn có thể khôi phục cùng số liệu thống kê F và giá trị p ở đó.


Và sau đó, ông đã viết về hệ số tương quan, đó không phải là từ phân tích tương quan? Hoặc từ này cũng có thể được sử dụng để mô tả độ dốc hồi quy?

Giả sử phân tích liên quan đến việc chỉ sử dụng B và Y, về mặt kỹ thuật tôi sẽ không đồng ý với lựa chọn từ này. Trong hầu hết các trường hợp, độ dốc và hệ số tương quan không thể được sử dụng thay thế cho nhau. Trong một trường hợp đặc biệt, hai trường hợp này giống nhau, đó là khi cả hai biến độc lập và biến phụ thuộc được tiêu chuẩn hóa (còn gọi là đơn vị của điểm z.)

Ví dụ, chúng ta hãy dặm tương quan của mỗi gallon và giá của chiếc xe:

             |    price      mpg
-------------+------------------
       price |   1.0000
         mpg |  -0.4686   1.0000

Và đây là thử nghiệm tương tự, sử dụng các biến được tiêu chuẩn hóa, bạn có thể thấy hệ số tương quan không thay đổi:

             |  sdprice    sdmpg
-------------+------------------
     sdprice |   1.0000
       sdmpg |  -0.4686   1.0000

Bây giờ, đây là hai mô hình hồi quy sử dụng các biến ban đầu:

. reg mpg price

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |  536.541807     1  536.541807           Prob > F      =  0.0000
    Residual |  1906.91765    72  26.4849674           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |  2443.45946    73  33.4720474           Root MSE      =  5.1464

------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       price |  -.0009192   .0002042    -4.50   0.000    -.0013263   -.0005121
       _cons |   26.96417   1.393952    19.34   0.000     24.18538    29.74297
------------------------------------------------------------------------------

... và đây là một biến có các biến được tiêu chuẩn hóa:

. reg sdmpg sdprice

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  1,    72) =   20.26
       Model |  16.0295482     1  16.0295482           Prob > F      =  0.0000
    Residual |  56.9704514    72  .791256269           R-squared     =  0.2196
-------------+------------------------------           Adj R-squared =  0.2087
       Total |  72.9999996    73  .999999994           Root MSE      =  .88953

------------------------------------------------------------------------------
       sdmpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     sdprice |  -.4685967   .1041111    -4.50   0.000    -.6761384   -.2610549
       _cons |  -7.22e-09   .1034053    -0.00   1.000    -.2061347    .2061347
------------------------------------------------------------------------------

Như bạn có thể thấy, độ dốc của các biến ban đầu là -0.0009192 và độ dốc của các biến được tiêu chuẩn hóa là -0.4686, đây cũng là hệ số tương quan.

Vì vậy, trừ khi A, B, C và Y được tiêu chuẩn hóa, tôi sẽ không đồng ý với "tương quan" của bài viết. Thay vào đó, tôi chỉ chọn mức tăng một đơn vị B có liên quan đến mức trung bình của Y cao hơn 0,27.

Trong tình huống phức tạp hơn, khi có nhiều hơn một biến độc lập có liên quan, hiện tượng được mô tả ở trên sẽ không còn đúng nữa.


7

Đầu tiên, anh ấy nói anh ấy sẽ chạy một phân tích hồi quy, sau đó anh ấy cho chúng tôi xem phân tích phương sai. Tại sao?

Phân tích bảng phương sai là một bản tóm tắt một phần thông tin bạn có thể nhận được từ hồi quy. (Những gì bạn có thể nghĩ về phân tích phương sai là một trường hợp hồi quy đặc biệt. Trong cả hai trường hợp, bạn có thể phân chia các tổng bình phương thành các thành phần có thể được sử dụng để kiểm tra các giả thuyết khác nhau và đây được gọi là phân tích bảng phương sai.)

Và sau đó, ông đã viết về hệ số tương quan, đó không phải là từ phân tích tương quan? Hoặc từ này cũng có thể được sử dụng để mô tả độ dốc hồi quy?

Mối tương quan không giống với độ dốc hồi quy, nhưng hai cái này có liên quan với nhau. Tuy nhiên, trừ khi họ để lại một từ (hoặc có thể là một vài từ), mối tương quan theo cặp của B với Y sẽ không cho bạn biết trực tiếp về tầm quan trọng của độ dốc trong hồi quy bội. Trong một hồi quy đơn giản, hai người có liên quan trực tiếp với nhau và mối quan hệ như vậy không giữ được. Trong nhiều hồi quy tương quan một phần có liên quan đến độ dốc theo cách tương ứng.


4

Tôi đang cung cấp mã trong R chỉ là một ví dụ, bạn chỉ có thể xem câu trả lời nếu bạn không có kinh nghiệm với R. Tôi chỉ muốn đưa ra một số trường hợp với các ví dụ.

tương quan và hồi quy

Tương quan tuyến tính đơn giản và hồi quy với một Y và một X:

Ngươi mâu:

y = a + betaX + error (residual) 

Giả sử chúng ta chỉ có hai biến:

X = c(4,5,8,6,12,15)
Y = c(3,6,9,8,6, 18)
plot(X,Y, pch = 19)

Trên sơ đồ phân tán, các điểm càng nằm gần một đường thẳng, mối quan hệ tuyến tính giữa hai biến càng mạnh.

nhập mô tả hình ảnh ở đây

Chúng ta hãy xem mối tương quan tuyến tính.

cor(X,Y)
0.7828747

Bây giờ hồi quy tuyến tính và kéo ra các giá trị bình phương R.

    reg1 <- lm(Y~X)
   summary(reg1)$r.squared
     0.6128929

Do đó, các hệ số của mô hình là:

reg1$coefficients
(Intercept)           X 
  2.2535971   0.7877698

Bản beta cho X là 0,7877698. Do đó, mô hình sẽ là:

  Y = 2.2535971 + 0.7877698 * X 

Căn bậc hai của giá trị R bình phương trong hồi quy giống như rtrong hồi quy tuyến tính.

sqrt(summary(reg1)$r.squared)
[1] 0.7828747

Chúng ta hãy xem hiệu ứng quy mô trên độ dốc hồi quy và tương quan bằng cách sử dụng cùng ví dụ trên và nhân Xvới một giá trị không đổi 12.

    X = c(4,5,8,6,12,15)
    Y = c(3,6,9,8,6, 18)
    X12 <- X*12

    cor(X12,Y)
   [1] 0.7828747

Các mối tương quan vẫn không thay đổi như làm R-squared .

    reg12 <- lm(Y~X12)
    summary(reg12)$r.squared
     [1] 0.6128929
     reg12$coefficients
(Intercept)         X12 
 0.53571429  0.07797619 

Bạn có thể thấy các hệ số hồi quy đã thay đổi nhưng không phải là bình phương R. Bây giờ một thử nghiệm khác cho phép thêm một hằng số Xvà xem điều này sẽ có hiệu lực.

    X = c(4,5,8,6,12,15)
    Y = c(3,6,9,8,6, 18)
    X5 <- X+5

    cor(X5,Y)
   [1] 0.7828747

Tương quan vẫn không thay đổi sau khi thêm 5. Chúng ta hãy xem điều này sẽ có ảnh hưởng như thế nào đến các hệ số hồi quy.

        reg5 <- lm(Y~X5)
        summary(reg5)$r.squared
         [1] 0.6128929
         reg5$coefficients
(Intercept)          X5 
 -4.1428571   0.9357143

Bình phương R và tương quan không có hiệu ứng tỷ lệ nhưng đánh chặn và độ dốc thì có. Vì vậy độ dốc không giống như hệ số tương quan (trừ khi các biến được tiêu chuẩn hóa với giá trị trung bình 0 và phương sai 1).

ANOVA là gì và tại sao chúng ta làm ANOVA?

ANOVA là kỹ thuật mà chúng tôi so sánh phương sai để đưa ra quyết định. Biến trả lời (được gọi Y) là biến định lượng trong khi Xcó thể định lượng hoặc định tính (yếu tố với các mức khác nhau). Cả hai XYcó thể là một hoặc nhiều về số lượng. Thông thường chúng ta nói ANOVA cho các biến định tính, ANOVA trong bối cảnh hồi quy ít được thảo luận. Có thể đây là nguyên nhân của sự nhầm lẫn của bạn. Giả thuyết khống trong biến định tính (các yếu tố, ví dụ: các nhóm) là giá trị trung bình của các nhóm không khác nhau / bằng nhau trong khi phân tích hồi quy, chúng tôi kiểm tra xem độ dốc của đường có khác 0 đáng kể hay không.

Chúng ta hãy xem một ví dụ trong đó chúng ta có thể thực hiện cả phân tích hồi quy và yếu tố định tính ANOVA vì cả X và Y đều là định lượng, nhưng chúng ta có thể coi X là yếu tố.

    X1 <- rep(1:5, each = 5)
    Y1 <- c(12,14,18,12,14,  21,22,23,24,18,  25,23,20,25,26, 29,29,28,30,25, 29,30,32,28,27)
   myd <- data.frame (X1,Y1)

Các dữ liệu trông như sau.

   X1 Y1
1   1 12
2   1 14
3   1 18
4   1 12
5   1 14
6   2 21
7   2 22
8   2 23
9   2 24
10  2 18
11  3 25
12  3 23
13  3 20
14  3 25
15  3 26
16  4 29
17  4 29
18  4 28
19  4 30
20  4 25
21  5 29
22  5 30
23  5 32
24  5 28
25  5 27

Bây giờ chúng tôi làm cả hồi quy và ANOVA. Hồi quy đầu tiên:

 reg <- lm(Y1~X1, data=myd)
 anova(reg)

Analysis of Variance Table

Response: Y1
          Df Sum Sq Mean Sq F value    Pr(>F)    
X1         1 684.50  684.50   101.4 6.703e-10 ***
Residuals 23 155.26    6.75                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

reg$coefficients             
(Intercept)          X1 
      12.26        3.70 

Bây giờ ANOVA thông thường (có nghĩa là ANOVA cho yếu tố / biến định tính) bằng cách chuyển đổi X1 thành yếu tố.

myd$X1f <- as.factor (myd$X1)
     regf <- lm(Y1~X1f, data=myd)
     anova(regf)
Analysis of Variance Table

Response: Y1
          Df Sum Sq Mean Sq F value    Pr(>F)    
X1f        4 742.16  185.54   38.02 4.424e-09 ***
Residuals 20  97.60    4.88                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Bạn có thể thấy X1f Df đã thay đổi là 4 thay vì 1 trong trường hợp trên.

Trái ngược với ANOVA cho các biến định tính, trong bối cảnh các biến định lượng, trong đó chúng tôi thực hiện phân tích hồi quy - Phân tích phương sai (ANOVA) bao gồm các tính toán cung cấp thông tin về mức độ biến đổi trong mô hình hồi quy và tạo cơ sở cho các thử nghiệm có ý nghĩa.

Về cơ bản ANOVA kiểm tra giả thuyết null beta = 0 (với beta giả thuyết thay thế không bằng 0). Ở đây chúng tôi kiểm tra F tỷ lệ biến thiên được giải thích bởi mô hình so với lỗi (phương sai dư). Phương sai mô hình xuất phát từ số lượng được giải thích bởi dòng bạn phù hợp trong khi phần dư xuất phát từ giá trị không được mô hình giải thích. Một F đáng kể có nghĩa là giá trị beta không bằng 0, có nghĩa là có mối quan hệ đáng kể giữa hai biến.

 > anova(reg1)
    Analysis of Variance Table

    Response: Y
              Df Sum Sq Mean Sq F value Pr(>F)  
    X          1 81.719  81.719  6.3331 0.0656 .
    Residuals  4 51.614  12.904                 
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ở đây chúng ta có thể thấy tương quan cao hoặc bình phương R nhưng vẫn không có kết quả đáng kể. Đôi khi bạn có thể nhận được một kết quả trong đó tương quan thấp vẫn tương quan đáng kể. Lý do của mối quan hệ không đáng kể trong trường hợp này là chúng tôi không có đủ dữ liệu (n = 6, dư df = 4), vì vậy F nên được xem xét phân phối F với tử số 1 df so với 4 mẫu số df. Vì vậy, trường hợp này chúng tôi không thể loại trừ độ dốc không bằng 0.

Hãy xem một ví dụ khác:

 X = c(4,5,8,6,2,  5,6,4,2,3,   8,2,5,6,3,  8,9,3,5,10)
    Y = c(3,6,9,8,6,  8,6,8,10,5,  3,3,2,4,3,  11,12,4,2,14)
    reg3 <- lm(Y~X)
    anova(reg3)


     Analysis of Variance Table

    Response: Y
              Df  Sum Sq Mean Sq F value  Pr(>F)  
    X          1  69.009  69.009   7.414 0.01396 *
    Residuals 18 167.541   9.308                  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Giá trị bình phương R cho dữ liệu mới này:

 summary(reg3)$r.squared
 [1] 0.2917296
cor(X,Y)
[1] 0.54012

Mặc dù mối tương quan thấp hơn trường hợp trước, chúng tôi có độ dốc đáng kể. Nhiều dữ liệu làm tăng df và cung cấp đủ thông tin để chúng ta có thể loại trừ giả thuyết null rằng độ dốc không bằng không.

Hãy lấy một ví dụ khác khi có sự tương quan phủ định:

 X1 = c(4,5,8,6,12,15)
    Y1 = c(18,16,2,4,2, 8)
   # correlation 
    cor(X1,Y1)
 -0.5266847
   # r-square using regression
    reg2 <- lm(Y1~X1)
   summary(reg2)$r.squared
 0.2773967
  sqrt(summary(reg2)$r.squared)
[1] 0.5266847

Vì giá trị bình phương căn bậc hai sẽ không cung cấp thông tin về mối quan hệ tích cực hoặc tiêu cực ở đây. Nhưng độ lớn là như nhau.

Trường hợp hồi quy bội:

Nhiều hồi quy tuyến tính cố gắng mô hình hóa mối quan hệ giữa hai hoặc nhiều biến giải thích và biến trả lời bằng cách khớp một phương trình tuyến tính với dữ liệu quan sát. Các cuộc thảo luận ở trên có thể được mở rộng cho nhiều trường hợp hồi quy. Trong trường hợp này, chúng tôi có nhiều beta trong thuật ngữ:

y = a + beta1X1 + beta2X2 + beta2X3 + ................+ betapXp + error 

Example: 
    X1 = c(4,5,8,6,2,  5,6,4,2,3,   8,2,5,6,3,  8,9,3,5,10)
    X2 = c(14,15,8,16,2,  15,3,2,4,7,   9,12,5,6,3,  12,19,13,15,20)
    Y = c(3,6,9,8,6,  8,6,8,10,5,  3,3,2,4,3,  11,12,4,2,14)
    reg4 <- lm(Y~X1+X2)

Chúng ta hãy xem các hệ số của mô hình:

reg4$coefficients

(Intercept)          X1          X2 
 2.04055116  0.72169350  0.05566427

Do đó, mô hình hồi quy tuyến tính bội của bạn sẽ là:

Y = 2.04055116 + 0.72169350 * X1 + 0.05566427* X2 

Bây giờ hãy kiểm tra xem beta cho X1 và X2 có lớn hơn 0 không.

 anova(reg4)
    Analysis of Variance Table

    Response: Y
              Df  Sum Sq Mean Sq F value  Pr(>F)  
    X1         1  69.009  69.009  7.0655 0.01656 *
    X2         1   1.504   1.504  0.1540 0.69965  
    Residuals 17 166.038   9.767                  
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ở đây chúng ta nói rằng độ dốc của X1 lớn hơn 0 trong khi chúng ta không thể quy định rằng độ dốc của X2 lớn hơn 0.

Xin lưu ý rằng độ dốc không tương quan giữa X1 và Y hoặc X2 và Y.

> cor(Y, X1)
[1] 0.54012
> cor(Y,X2)
[1] 0.3361571

Trong tình huống đa biến (trong đó biến lớn hơn hai tương quan một phần đi vào vở kịch. Tương quan một phần là tương quan của hai biến trong khi kiểm soát một biến thứ ba hoặc nhiều biến khác.

source("http://www.yilab.gatech.edu/pcor.R")
pcor.test(X1, Y,X2)
   estimate    p.value statistic  n gn  Method            Use
1 0.4567979 0.03424027  2.117231 20  1 Pearson Var-Cov matrix
pcor.test(X2, Y,X1)
    estimate   p.value statistic  n gn  Method            Use
1 0.09473812 0.6947774 0.3923801 20  1 Pearson Var-Cov matrix

1

Phân tích phương sai (ANOVA) và hồi quy thực sự rất giống nhau (một số người sẽ nói rằng chúng giống nhau).

Trong Phân tích phương sai, thông thường bạn có một số loại (nhóm) và biến phản ứng định lượng. Bạn tính toán số lượng lỗi tổng thể, số lượng lỗi trong một nhóm và số lượng lỗi giữa các nhóm.

Trong hồi quy, bạn không nhất thiết phải có các nhóm nữa, nhưng bạn vẫn có thể phân vùng lượng lỗi thành một lỗi tổng thể, lượng lỗi được giải thích bởi mô hình hồi quy của bạn và lỗi không giải thích được bằng mô hình hồi quy của bạn. Các mô hình hồi quy thường được hiển thị bằng các bảng ANOVA và đó là một cách dễ dàng để xem mô hình của bạn được giải thích bao nhiêu biến thể.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.