Tôi hiểu điều đó có nghĩa là mô hình rất tệ trong việc dự đoán các điểm dữ liệu riêng lẻ nhưng đã thiết lập một xu hướng vững chắc (ví dụ: y đi lên khi x đi lên).
Tôi hiểu điều đó có nghĩa là mô hình rất tệ trong việc dự đoán các điểm dữ liệu riêng lẻ nhưng đã thiết lập một xu hướng vững chắc (ví dụ: y đi lên khi x đi lên).
Câu trả lời:
Nó có nghĩa là bạn có thể giải thích một phần nhỏ của phương sai trong dữ liệu. Ví dụ, bạn có thể xác định rằng bằng đại học ảnh hưởng đến tiền lương, nhưng đồng thời đó chỉ là một yếu tố nhỏ. Có nhiều yếu tố khác ảnh hưởng đến tiền lương của bạn, và sự đóng góp của bằng đại học là rất nhỏ, nhưng có thể phát hiện được.
Trong thực tế, điều đó có thể có nghĩa là trung bình bằng đại học làm tăng mức lương $ 500 mỗi năm, trong khi độ lệch chuẩn của tiền lương của mọi người là $ 10K. Vì vậy, nhiều người có trình độ đại học có mức lương thấp hơn so với người không được giáo dục và giá trị của mô hình dự đoán của bạn là thấp.
Nó có nghĩa là "lỗi không thể sửa chữa là cao", nghĩa là, điều tốt nhất chúng ta có thể làm (với mô hình tuyến tính) bị hạn chế. Ví dụ: tập dữ liệu sau:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Lưu ý, mẹo trong bộ dữ liệu này là đưa ra một giá trị , có quá nhiều giá trị y khác nhau , chúng ta không thể đưa ra dự đoán tốt để đáp ứng tất cả chúng. Đồng thời, có mối tương quan tuyến tính "mạnh" giữa x và y . Nếu chúng ta phù hợp với một mô hình tuyến tính, chúng ta sẽ nhận được các hệ số đáng kể, nhưng bình phương R thấp.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Điều đó có nghĩa gì khi hồi quy tuyến tính có ý nghĩa thống kê nhưng có bình phương r rất thấp?
Nó có nghĩa là có một mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc, nhưng mối quan hệ này có thể không đáng nói.
Tuy nhiên, ý nghĩa của mối quan hệ phụ thuộc rất nhiều vào những gì bạn đang kiểm tra nhưng nhìn chung, bạn có thể coi đó là ý nghĩa thống kê không nên nhầm lẫn với sự liên quan.
Với kích thước mẫu đủ lớn, ngay cả những mối quan hệ tầm thường nhất cũng có thể được tìm thấy có ý nghĩa thống kê.
Một cách khác của cụm từ này là nó có nghĩa là bạn có thể tự tin dự đoán một sự thay đổi ở cấp độ dân số chứ không phải ở cấp độ cá nhân. tức là có sự chênh lệch cao trong dữ liệu riêng lẻ, nhưng khi sử dụng một mẫu đủ lớn, có thể thấy hiệu ứng cơ bản. Đó là một lý do tại sao một số lời khuyên sức khỏe của Chính phủ là không có ích cho cá nhân. Chính phủ đôi khi cảm thấy cần phải hành động bởi vì họ có thể thấy rằng nhiều hoạt động hơn dẫn đến nhiều cái chết trong dân số. Họ đưa ra lời khuyên hoặc một chính sách 'cứu' những cuộc sống này. Tuy nhiên, do sự khác biệt cao trong các phản ứng cá nhân, một cá nhân có thể rất khó nhận thấy bất kỳ lợi ích nào (hoặc tệ hơn, vì các điều kiện di truyền cụ thể, sức khỏe của chính họ thực sự sẽ được cải thiện từ việc tuân theo lời khuyên ngược lại, nhưng điều này được ẩn trong tập hợp dân số). Nếu cá nhân có được lợi ích (ví dụ như niềm vui) từ hoạt động 'không lành mạnh', làm theo lời khuyên có thể có nghĩa là họ từ bỏ niềm vui xác định này trong suốt cuộc đời của họ, nhưng thực tế không thay đổi dù họ có hoặc không phải chịu đựng tình trạng này.