Những gì r, r bình phương và độ lệch chuẩn còn lại cho chúng ta biết về mối quan hệ tuyến tính?


13

Bối cảnh nhỏ
Tôi đang làm việc để giải thích phân tích hồi quy nhưng tôi thực sự bối rối về ý nghĩa của r, r bình phương và độ lệch chuẩn còn lại. Tôi biết các định nghĩa:

Đặc điểm

r đo cường độ và hướng của mối quan hệ tuyến tính giữa hai biến trên biểu đồ phân tán

R bình phương là một thước đo thống kê về mức độ gần của dữ liệu với đường hồi quy được trang bị.

Độ lệch chuẩn còn lại là một thuật ngữ thống kê được sử dụng để mô tả độ lệch chuẩn của các điểm được hình thành xung quanh hàm tuyến tính và là ước tính về độ chính xác của biến phụ thuộc được đo. ( Không biết các đơn vị là gì, mọi thông tin về các đơn vị ở đây sẽ hữu ích )

(nguồn: tại đây )

Câu hỏi
Mặc dù tôi "hiểu" các đặc tính, nhưng tôi hiểu các thuật ngữ này làm thế nào để rút ra kết luận về bộ dữ liệu. Tôi sẽ chèn một ví dụ nhỏ ở đây, có thể đây có thể là hướng dẫn để trả lời câu hỏi của tôi ( thoải mái sử dụng một ví dụ của riêng bạn!)

Ví dụ
Đây không phải là một câu hỏi howework, tuy nhiên tôi đã tìm kiếm trong cuốn sách của mình để lấy một ví dụ đơn giản (tập dữ liệu hiện tại tôi đang phân tích quá phức tạp và lớn để hiển thị ở đây)

Hai mươi lô, mỗi lô 10 x 4 mét, được chọn ngẫu nhiên trong một cánh đồng ngô lớn. Đối với mỗi ô, mật độ thực vật (số lượng thực vật trong ô) và trọng lượng lõi trung bình (gm hạt trên mỗi lõi) đã được quan sát. Kết quả là givin trong bảng sau:
(nguồn: Thống kê cho các ngành khoa học sự sống )

╔═══════════════╦════════════╦══╗
 Platn density  Cob weight   
╠═══════════════╬════════════╬══╣
           137         212   
           107         241   
           132         215   
           135         225   
           115         250   
           103         241   
           102         237   
            65         282   
           149         206   
            85         246   
           173         194   
           124         241   
           157         196   
           184         193   
           112         224   
            80         257   
           165         200   
           160         190   
           157         208   
           119         224   
╚═══════════════╩════════════╩══╝

Đầu tiên tôi sẽ tạo một biểu đồ phân tán để trực quan hóa dữ liệu: Vì vậy tôi có thể tính r, R 2 và độ lệch chuẩn còn lại. đầu tiên thử nghiệm tương quan:
nhập mô tả hình ảnh ở đây

    Pearson's product-moment correlation

data:  X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9770972 -0.8560421
sample estimates:
       cor 
-0.9417954 

và thứ hai là tóm tắt về đường hồi quy:

Residuals:
    Min      1Q  Median      3Q     Max 
-11.666  -6.346  -1.439   5.049  16.496 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 316.37619    7.99950   39.55  < 2e-16 ***
X            -0.72063    0.06063  -11.88 5.89e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared:  0.887, Adjusted R-squared:  0.8807 
F-statistic: 141.3 on 1 and 18 DF,  p-value: 5.889e-10

Vì vậy, dựa trên thử nghiệm này: r = -0.9417954, R-squared: 0.887và lỗi tiêu chuẩn dư: 8.619 Những giá trị này cho chúng ta biết gì về tập dữ liệu? (xem Câu hỏi )


3
Có thể đáng lưu ý rằng những gì bạn gọi là "định nghĩa" chỉ là đặc điểm thông thường và như vậy có thể gây hiểu nhầm, tùy thuộc vào cách chúng được diễn giải và áp dụng. Các định nghĩa thực tế là định lượng và chính xác.
whuber

Cảm ơn bạn đã chỉ ra rằng tôi, các nguồn mà tôi đã sử dụng gọi là các định nghĩa này, tuy nhiên nếu không có "đặc tính" ngữ cảnh có lẽ sẽ tốt hơn thực sự, tôi sẽ thay đổi điều đó!
KingBoomie

Các mảnh: R bình phương thường được giải thích là tỷ lệ phương sai được giải thích bởi các yếu tố dự đoán, vì vậy gần với 1 là tốt. Đơn vị của độ lệch chuẩn còn lại phải là đơn vị của số dư của bạn, là đơn vị của biến trả lời của bạn.
alistaire

Cảm ơn bạn! @alistaire thực sự điều này có ý nghĩa hahah vì chúng tôi so sánh giá trị y của Điểm gốc với giá trị y của các điểm được dự đoán
KingBoomie

Bạn nên vẽ các phần dư chống lại dự đoán theo đề xuất của David trong câu trả lời của anh ấy.
HelloWorld

Câu trả lời:


5

Những thống kê đó có thể cho bạn biết liệu có một thành phần tuyến tính cho mối quan hệ nhưng không nhiều về mối quan hệ đó có đúng tuyến tính hay không. Một mối quan hệ với một thành phần bậc hai nhỏ có thể có r ^ 2 là 0,99. Một âm mưu của phần dư như là một chức năng dự đoán có thể được tiết lộ. Trong thí nghiệm của Galileo tại đây https://ww2.amstat.org/publications/jse/v3n1/datasets.dickey.html mối tương quan rất cao nhưng mối quan hệ rõ ràng là phi tuyến.


5

Đây là lần thử thứ hai để trả lời sau khi nhận được phản hồi về các vấn đề với câu trả lời đầu tiên của tôi.

r|r||r|

R2r2R2

rR2rrR2rR2

Lỗi tiêu chuẩn dư là độ lệch chuẩn cho phân phối chuẩn, tập trung vào đường hồi quy dự đoán, đại diện cho phân phối của các giá trị thực tế quan sát được. Nói cách khác, nếu chúng ta chỉ đo mật độ thực vật cho một âm mưu mới, chúng ta có thể dự đoán trọng lượng lõi ngô bằng các hệ số của mô hình được trang bị, đây là giá trị trung bình của phân phối đó. RSE là độ lệch chuẩn của phân phối đó và do đó, thước đo mức độ chúng ta mong đợi trọng lượng lõi thực sự quan sát được sẽ lệch khỏi các giá trị được mô hình dự đoán. RSE ~ 8 trong trường hợp này phải được so sánh với độ lệch chuẩn mẫu của trọng lượng lõi ngô nhưng RSE càng nhỏ so với SD mẫu thì mô hình càng dễ dự đoán hoặc đầy đủ.


@whuber Vẫn chưa có câu trả lời nào khác cho câu hỏi này nên tôi quyết định thử lại lần nữa. Thay vì xóa bỏ câu trả lời cũ, với tất cả hành lý, tôi quyết định chỉ viết một câu mới (ngoại trừ đoạn RSE mà tôi đã sao chép). Nếu bạn có thời gian tôi thực sự biết ơn về bất kỳ phản hồi nào về lần thử thứ hai này. Cách tiếp cận thông thường của tôi để đánh giá mô hình là xác thực chéo và các bộ giữ, vì mục đích thường là dự đoán, nhưng tôi thực sự muốn hiểu các số liệu này cũng như chúng khá phổ biến.
Johan Falkenjack

2
|r|rρ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.