Giải thích đầu ra hồi quy tuyến tính đơn giản


20

Tôi đã chạy một hồi quy tuyến tính đơn giản của nhật ký tự nhiên của 2 biến để xác định xem chúng có tương quan hay không. Đầu ra của tôi là thế này:

R^2 = 0.0893

slope = 0.851

p < 0.001

Tôi bị bối rối. Nhìn vào giá trị , tôi sẽ nói rằng hai biến không tương quan với nhau, vì nó rất gần với . Tuy nhiên, độ dốc của đường hồi quy là gần (mặc dù nhìn gần như nằm ngang trong cốt truyện) và giá trị p chỉ ra rằng hồi quy rất có ý nghĩa. 0 1R201

Điều này nghĩa là rằng hai biến được liên quan chặt chẽ? Nếu vậy, giá trị chỉ ra điều gì?R2

Tôi nên thêm rằng thống kê Durbin-Watson đã được thử nghiệm trong phần mềm của tôi và không bác bỏ giả thuyết (nó bằng ). Tôi nghĩ rằng điều này đã kiểm tra tính độc lập giữa biến. Trong trường hợp này, tôi hy vọng các biến sẽ phụ thuộc, vì chúng là phép đo của một con chim. Tôi đang thực hiện hồi quy này như là một phần của phương pháp được công bố để xác định tình trạng cơ thể của một cá nhân, vì vậy tôi cho rằng sử dụng hồi quy theo cách này có ý nghĩa. Tuy nhiên, với những kết quả đầu ra này, tôi nghĩ rằng có thể đối với những con chim này, phương pháp này không phù hợp. Điều này có vẻ là một kết luận hợp lý?2 21.35722


1
Các số liệu thống kê Durbin-Watson là một thử nghiệm cho tương quan nối tiếp: có nghĩa là, để xem liệu về lỗi liền kề có tương quan lẫn nhau. Nó không nói gì về mối tương quan giữa X của bạn và Y! Thất bại trong bài kiểm tra là một dấu hiệu cho thấy độ dốc và giá trị p cần được giải thích một cách thận trọng.
whuber

À, được rồi Điều đó có ý nghĩa hơn một chút so với việc liệu hai biến có tương quan với nhau hay không ... sau tất cả, tôi nghĩ đó là những gì tôi đang cố gắng tìm bằng cách sử dụng hồi quy. Và việc thất bại trong bài kiểm tra cho thấy tôi nên thận trọng khi giải thích độ dốc và giá trị p càng có ý nghĩa hơn trong trường hợp này! Cảm ơn @whuber!
Mog

1
Tôi chỉ muốn thêm độ dốc có thể rất đáng kể (giá trị p <.001) mặc dù mối quan hệ yếu, đặc biệt là với cỡ mẫu lớn. Điều này đã được gợi ý trong hầu hết các câu trả lời là độ dốc (ngay cả khi nó có ý nghĩa) không nói gì về sức mạnh của mối quan hệ.
Glen

Bạn cần để xác định sức mạnh của mối quan hệ. Đồng thời xem số liệu thống kê.stackexchange.com/a/265924/99274 . n
Carl

Câu trả lời:


22

Giá trị ước tính của độ dốc không tự nó cho bạn biết sức mạnh của mối quan hệ. Sức mạnh của mối quan hệ phụ thuộc vào kích thước của phương sai lỗi và phạm vi của yếu tố dự đoán. Ngoài ra, một giá trị đáng kể không cho bạn biết nhất thiết phải có mối quan hệ bền chặt; giá trị p chỉ đơn giản là kiểm tra xem độ dốc có chính xác không 0. Đối với cỡ mẫu đủ lớn, ngay cả những lần khởi hành nhỏ từ giả thuyết đó (ví dụ: những độ không quan trọng thực tế) sẽ mang lại giá trị p đáng kể .ppp

Trong ba đại lượng bạn đã trình bày, , hệ số xác định , đưa ra dấu hiệu lớn nhất về sức mạnh của mối quan hệ. Trong trường hợp của bạn, R 2 = .089 , có nghĩa là 8,9 % biến thể trong biến trả lời của bạn có thể được giải thích mối quan hệ tuyến tính với bộ dự đoán. Những gì cấu thành R 2 "lớn" là phụ thuộc vào kỷ luật. Ví dụ: trong khoa học xã hội R 2 = .2 có thể "lớn" nhưng trong các môi trường được kiểm soát như cài đặt gốc, R 2 > .9R2R2=.0898.9%R2R2=.2R2>.9có thể được yêu cầu để nói rằng có một mối quan hệ "mạnh mẽ". Trong hầu hết các tình huống R 2 rất nhỏ , vì vậy kết luận của bạn rằng có mối quan hệ tuyến tính yếu có lẽ là hợp lý..089R2


Cảm ơn Macro. Câu trả lời rất hữu ích. Tôi rất vui vì bạn đã bao gồm một phần về những gì, chính xác, giá trị p đang thử nghiệm. Điều này có ý nghĩa rất lớn rằng giá trị p sẽ rất thấp khi xem xét mức độ gần với 1 độ dốc. Dường như với tôi, theo câu trả lời của bạn và @jedfrancis ', giá trị r ^ 2 mô tả rằng' đám mây 'các điểm dữ liệu xung quanh đường hồi quy. Xuất sắc! Điều đó rõ ràng hơn nhiều bây giờ!
Mog

@Macro (+1), câu trả lời tốt. Nhưng làm thế nào "sức mạnh của mối quan hệ" phụ thuộc vào "kích cỡ của sự đánh chặn"? AFAIK, phần đánh chặn không nói gì về mối tương quan hoặc "sức mạnh" của mối quan hệ tuyến tính.
whuber

@whuber, bạn nói đúng - việc chặn là không liên quan và chắc chắn không thay đổi mối tương quan - Tôi đã suy nghĩ về hàm hồi quy so với y = x và nghĩ cách nào đó thứ hai là mối quan hệ mạnh mẽ hơn ( tất cả các số khác được giữ bằng nhau), vì một lượng lớn hơn của y là do x trong trường hợp sau. Bây giờ tôi không nghĩ nhiều về nó. Tôi đã chỉnh sửa bài viết. y=10000+xy=xyx
Macro

4
@macro Câu trả lời tuyệt vời, nhưng tôi sẽ nhấn mạnh (đối với những người mới tham gia chủ đề này) rằng R ^ 2 có thể rất thấp ngay cả với một mối quan hệ mạnh mẽ, nếu mối quan hệ là phi tuyến tính, và đặc biệt nếu nó không đơn điệu. Ví dụ yêu thích của tôi về điều này là mối quan hệ giữa căng thẳng và điểm thi; căng thẳng rất thấp và căng thẳng rất cao có xu hướng tồi tệ hơn căng thẳng vừa phải.
Peter Flom - Tái lập Monica

1
@macro Vâng, câu trả lời của bạn rất hay, nhưng tôi đã làm việc với những người không biết nhiều số liệu thống kê và tôi đã thấy những gì xảy ra ... đôi khi những gì chúng ta nói không phải là những gì họ nghe thấy!
Peter Flom - Tái lập Monica

14

Các cho bạn biết bao nhiêu biến động của biến phụ thuộc được giải thích bởi một mô hình. Tuy nhiên, người ta có thể giải thích R 2 cũng như mối tương quan giữa các giá trị ban đầu của biến phụ thuộc và các giá trị được trang bị. Giải thích chính xác và dẫn xuất hệ số xác định R 2 có thể được tìm thấy ở đây .R2R2R2

Các bằng chứng cho thấy hệ số xác định là tương đương với tương quan Hệ số Squared Pearson giữa các giá trị quan sát và các giá trị được trang bị y i có thể được tìm thấy ở đây .yiy^i

Các hoặc hệ số xác định cho biết cường độ mô hình của bạn trong giải thích các biến phụ thuộc. Trong trường hợp của bạn, R 2 = 0,089 . Điều này mà mô hình của bạn có thể giải thích 8,9% biến thể của biến phụ thuộc của bạn. Hoặc, hệ số tương quan giữa bạn y i và các giá trị được trang bị của bạn y i là 0,089. Những gì tạo nên một R 2 tốt là phụ thuộc kỷ luật.R2R2=0.089yiy^iR2

Cuối cùng, đến phần cuối cùng của câu hỏi của bạn. Bạn không thể làm bài kiểm tra Durbin-Watson để nói điều gì đó về mối tương quan giữa các biến phụ thuộc và biến độc lập. Các thử nghiệm Durbin-Watson cho tương quan nối tiếp. Nó được tiến hành để kiểm tra xem các điều khoản lỗi của bạn có tương quan lẫn nhau hay không.


9

R2

R2

x


Cảm ơn @jed. Có, tôi đã kiểm tra tính bình thường của phần dư, và tất cả đều ổn. Ý kiến ​​của bạn rằng dữ liệu được lan truyền rộng rãi xung quanh đường hồi quy đó là hoàn toàn chính xác - các điểm dữ liệu trông giống như một đám mây xung quanh đường hồi quy được vẽ bởi phần mềm.
Mog

1
Chào mừng bạn đến với trang web của chúng tôi, @jed, và cảm ơn bạn đã trả lời! Xin lưu ý rằng độ dốc tự nó hầu như không nói gì về mối tương quan, ngoài dấu hiệu của nó, bởi vì mối tương quan không phụ thuộc vào đơn vị đo X và Y nhưng độ dốc thì có.
whuber

1
@whuber đang nói rằng giá trị của độ dốc không không nói với bạn bất cứ điều gì về sức mạnh của hiệp hội trừ khi biến được chuẩn hóa. Xem câu trả lời của shabbychefs.
sói.rauch

@ wolf.rauch gotcha
jedfrancis

@jed Sẽ tốt hơn nếu bạn sửa câu trả lời của mình.
whuber

7

R2yxxyR2

Nói tóm lại, độ dốc không phải là một chỉ số tốt về mô hình 'phù hợp' trừ khi bạn chắc chắn rằng các thang đo của các biến phụ thuộc và biến độc lập phải bằng nhau.


1

Tôi thích các câu trả lời đã được đưa ra, nhưng hãy để tôi bổ sung cho chúng bằng một cách tiếp cận khác (và nhiều hơn nữa).

Giả sử chúng tôi thu thập một loạt các quan sát từ 1000 người ngẫu nhiên đang cố gắng tìm hiểu xem những cú đấm vào mặt có liên quan đến đau đầu:

Headaches=β0+β1Punch_in_the_face+ε

ε

β1R2

Về mặt đồ họa, điều này có thể trông giống như một con dốc cao nhưng với một biến thể rất lớn xung quanh con dốc này.


0

@Macro đã có một câu trả lời tuyệt vời.

Giá trị ước tính của độ dốc không tự nó cho bạn biết sức mạnh của mối quan hệ. Sức mạnh của mối quan hệ phụ thuộc vào kích thước của phương sai lỗi và phạm vi của yếu tố dự đoán. Ngoài ra, một giá trị pp đáng kể không cho bạn biết nhất thiết phải có mối quan hệ bền chặt; giá trị pp chỉ đơn giản là kiểm tra xem độ dốc có chính xác bằng 0 hay không.

Tôi chỉ muốn thêm một ví dụ bằng số để hiển thị trường hợp OP được mô tả.

  • R2
  • Đáng kể về giá trị p
  • 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.