Bối cảnh nhỏ
Tôi đang làm việc để giải thích phân tích hồi quy nhưng tôi thực sự bối rối về ý nghĩa của r, r bình phương và độ lệch chuẩn còn lại. Tôi biết các định nghĩa:
Đặc điểm
r đo cường độ và hướng của mối quan hệ tuyến tính giữa hai biến trên biểu đồ phân tán
R bình phương là một thước đo thống kê về mức độ gần của dữ liệu với đường hồi quy được trang bị.
Độ lệch chuẩn còn lại là một thuật ngữ thống kê được sử dụng để mô tả độ lệch chuẩn của các điểm được hình thành xung quanh hàm tuyến tính và là ước tính về độ chính xác của biến phụ thuộc được đo. ( Không biết các đơn vị là gì, mọi thông tin về các đơn vị ở đây sẽ hữu ích )
(nguồn: tại đây )
Câu hỏi
Mặc dù tôi "hiểu" các đặc tính, nhưng tôi hiểu các thuật ngữ này làm thế nào để rút ra kết luận về bộ dữ liệu. Tôi sẽ chèn một ví dụ nhỏ ở đây, có thể đây có thể là hướng dẫn để trả lời câu hỏi của tôi ( thoải mái sử dụng một ví dụ của riêng bạn!)
Ví dụ
Đây không phải là một câu hỏi howework, tuy nhiên tôi đã tìm kiếm trong cuốn sách của mình để lấy một ví dụ đơn giản (tập dữ liệu hiện tại tôi đang phân tích quá phức tạp và lớn để hiển thị ở đây)
Hai mươi lô, mỗi lô 10 x 4 mét, được chọn ngẫu nhiên trong một cánh đồng ngô lớn. Đối với mỗi ô, mật độ thực vật (số lượng thực vật trong ô) và trọng lượng lõi trung bình (gm hạt trên mỗi lõi) đã được quan sát. Kết quả là givin trong bảng sau:
(nguồn: Thống kê cho các ngành khoa học sự sống )
╔═══════════════╦════════════╦══╗
║ Platn density ║ Cob weight ║ ║
╠═══════════════╬════════════╬══╣
║ 137 ║ 212 ║ ║
║ 107 ║ 241 ║ ║
║ 132 ║ 215 ║ ║
║ 135 ║ 225 ║ ║
║ 115 ║ 250 ║ ║
║ 103 ║ 241 ║ ║
║ 102 ║ 237 ║ ║
║ 65 ║ 282 ║ ║
║ 149 ║ 206 ║ ║
║ 85 ║ 246 ║ ║
║ 173 ║ 194 ║ ║
║ 124 ║ 241 ║ ║
║ 157 ║ 196 ║ ║
║ 184 ║ 193 ║ ║
║ 112 ║ 224 ║ ║
║ 80 ║ 257 ║ ║
║ 165 ║ 200 ║ ║
║ 160 ║ 190 ║ ║
║ 157 ║ 208 ║ ║
║ 119 ║ 224 ║ ║
╚═══════════════╩════════════╩══╝
Đầu tiên tôi sẽ tạo một biểu đồ phân tán để trực quan hóa dữ liệu:
Vì vậy tôi có thể tính r, R 2 và độ lệch chuẩn còn lại.
đầu tiên thử nghiệm tương quan:
Pearson's product-moment correlation
data: X and Y
t = -11.885, df = 18, p-value = 5.889e-10
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9770972 -0.8560421
sample estimates:
cor
-0.9417954
và thứ hai là tóm tắt về đường hồi quy:
Residuals:
Min 1Q Median 3Q Max
-11.666 -6.346 -1.439 5.049 16.496
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 316.37619 7.99950 39.55 < 2e-16 ***
X -0.72063 0.06063 -11.88 5.89e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.619 on 18 degrees of freedom
Multiple R-squared: 0.887, Adjusted R-squared: 0.8807
F-statistic: 141.3 on 1 and 18 DF, p-value: 5.889e-10
Vì vậy, dựa trên thử nghiệm này: r = -0.9417954
, R-squared: 0.887
và lỗi tiêu chuẩn dư: 8.619
Những giá trị này cho chúng ta biết gì về tập dữ liệu? (xem Câu hỏi )