Điều đó có nghĩa gì khi hồi quy tuyến tính có ý nghĩa thống kê nhưng có bình phương r rất thấp?


14

Tôi hiểu điều đó có nghĩa là mô hình rất tệ trong việc dự đoán các điểm dữ liệu riêng lẻ nhưng đã thiết lập một xu hướng vững chắc (ví dụ: y đi lên khi x đi lên).


9
Nó có thể gợi ý một cỡ mẫu rất lớn
Henry

Câu trả lời:


27

Nó có nghĩa là bạn có thể giải thích một phần nhỏ của phương sai trong dữ liệu. Ví dụ, bạn có thể xác định rằng bằng đại học ảnh hưởng đến tiền lương, nhưng đồng thời đó chỉ là một yếu tố nhỏ. Có nhiều yếu tố khác ảnh hưởng đến tiền lương của bạn, và sự đóng góp của bằng đại học là rất nhỏ, nhưng có thể phát hiện được.

Trong thực tế, điều đó có thể có nghĩa là trung bình bằng đại học làm tăng mức lương $ 500 mỗi năm, trong khi độ lệch chuẩn của tiền lương của mọi người là $ 10K. Vì vậy, nhiều người có trình độ đại học có mức lương thấp hơn so với người không được giáo dục và giá trị của mô hình dự đoán của bạn là thấp.


11

Nó có nghĩa là "lỗi không thể sửa chữa là cao", nghĩa là, điều tốt nhất chúng ta có thể làm (với mô hình tuyến tính) bị hạn chế. Ví dụ: tập dữ liệu sau:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Lưu ý, mẹo trong bộ dữ liệu này là đưa ra một giá trị , có quá nhiều giá trị y khác nhau , chúng ta không thể đưa ra dự đoán tốt để đáp ứng tất cả chúng. Đồng thời, có mối tương quan tuyến tính "mạnh" giữa xy . Nếu chúng ta phù hợp với một mô hình tuyến tính, chúng ta sẽ nhận được các hệ số đáng kể, nhưng bình phương R thấp.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

nhập mô tả hình ảnh ở đây



3

Điều đó có nghĩa gì khi hồi quy tuyến tính có ý nghĩa thống kê nhưng có bình phương r rất thấp?

Nó có nghĩa là có một mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc, nhưng mối quan hệ này có thể không đáng nói.

Tuy nhiên, ý nghĩa của mối quan hệ phụ thuộc rất nhiều vào những gì bạn đang kiểm tra nhưng nhìn chung, bạn có thể coi đó là ý nghĩa thống kê không nên nhầm lẫn với sự liên quan.

Với kích thước mẫu đủ lớn, ngay cả những mối quan hệ tầm thường nhất cũng có thể được tìm thấy có ý nghĩa thống kê.


1
Trên thực tế hồi quy tuyến tính có nghĩa là tuyến tính trong các tham số. Các biến phụ thuộc thô có thể được chuyển đổi và bạn vẫn có hồi quy tuyến tính. Tôi hơi bối rối bởi những gì bạn nghĩ có ý nghĩa thống kê. Đối với tôi nó có nghĩa là các ước tính tham số là lớn.
Michael R. Chernick

^ ý nghĩa đề cập đến xác suất rằng các kết quả hoàn toàn là tình cờ và không có mối quan hệ giữa các yếu tố dự đoán và biến phụ thuộc. nếu bạn có cỡ mẫu nhỏ và kết quả là đáng kể, thì có, ước tính tham số sẽ lớn. tuy nhiên, với một mẫu lớn đến mức nực cười, bạn có thể nhận được kết quả quan trọng ngay cả với ước tính tham số rất nhỏ. dùng thử tại đây: danielsoper.com/statcalc/calculator.aspx
faustus

Những gì bạn nói nghe giống như một mô tả chung về những gì suy luận là về. Nhưng ý nghĩa thống kê là một thuật ngữ cụ thể có liên quan đến việc vượt quá (các) giá trị tới hạn trong đó (các) giá trị tới hạn phụ thuộc vào mức ý nghĩa cụ thể mà nhà phân tích chọn (ví dụ 0,05. 0,01, v.v.). Kích thước mẫu là một yếu tố khác. Trong hồi quy, bạn đang kiểm tra một số giả thuyết (tầm quan trọng của các hệ số hồi quy riêng cũng như kiểm tra rằng không có mối quan hệ nào. Nó cũng có thể phức tạp bằng cách thực hiện các quy trình từng bước giữa một số mô hình có thể.
Michael R. Chernick

1
Thống kê là một phần khoa học và nghệ thuật một phần nhưng nó dựa trên các nguyên tắc toán học.
Michael R. Chernick

2
@MichaelCécik Bạn có thể giải thích một chút không? Tôi đồng ý với faustus (thực tế tôi đã tình cờ đưa ra một câu trả lời tương tự) và tôi không hiểu quan điểm của bạn. Trong hồi quy tuyến tính, tầm quan trọng (cho dù tầm quan trọng của các hệ số hồi quy riêng lẻ hoặc toàn bộ hồi quy) được kiểm tra dựa trên giả thuyết không có mối quan hệ (hệ số chính xác là 0). nhỏ. (tiếp theo)
Luca Citi

2

Một cách khác của cụm từ này là nó có nghĩa là bạn có thể tự tin dự đoán một sự thay đổi ở cấp độ dân số chứ không phải ở cấp độ cá nhân. tức là có sự chênh lệch cao trong dữ liệu riêng lẻ, nhưng khi sử dụng một mẫu đủ lớn, có thể thấy hiệu ứng cơ bản. Đó là một lý do tại sao một số lời khuyên sức khỏe của Chính phủ là không có ích cho cá nhân. Chính phủ đôi khi cảm thấy cần phải hành động bởi vì họ có thể thấy rằng nhiều hoạt động hơn dẫn đến nhiều cái chết trong dân số. Họ đưa ra lời khuyên hoặc một chính sách 'cứu' những cuộc sống này. Tuy nhiên, do sự khác biệt cao trong các phản ứng cá nhân, một cá nhân có thể rất khó nhận thấy bất kỳ lợi ích nào (hoặc tệ hơn, vì các điều kiện di truyền cụ thể, sức khỏe của chính họ thực sự sẽ được cải thiện từ việc tuân theo lời khuyên ngược lại, nhưng điều này được ẩn trong tập hợp dân số). Nếu cá nhân có được lợi ích (ví dụ như niềm vui) từ hoạt động 'không lành mạnh', làm theo lời khuyên có thể có nghĩa là họ từ bỏ niềm vui xác định này trong suốt cuộc đời của họ, nhưng thực tế không thay đổi dù họ có hoặc không phải chịu đựng tình trạng này.


Ví dụ rất hay!
kjetil b halvorsen

R2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.