Liệu -squared có giá trị ?


18

Tôi dường như đã bối rối khi cố gắng hiểu nếu một giá trị -quared cũng có giá trị .prp

Theo tôi hiểu, trong tương quan tuyến tính với một tập hợp các điểm dữ liệu có thể có giá trị nằm trong khoảng từ đến và giá trị này, dù là gì, có thể có giá trị cho thấy nếu khác đáng kể (nghĩa là , nếu có mối tương quan tuyến tính giữa hai biến).- 1r1p r 01pr0

Chuyển sang hồi quy tuyến tính, một hàm có thể được gắn vào dữ liệu, được mô tả bởi phương trình . và (chặn và độ dốc) cũng có giá trị để hiển thị nếu chúng khác đáng kể .a b p 0Y=a+bXabp0

Giả sử cho đến nay tôi đã hiểu mọi thứ chính xác, giá trị cho và giá trị cho có giống nhau không? Có đúng không khi nói rằng nó không phải là -squared có giá trị mà là hoặc không?r p b r p r bprpbrprb

Câu trả lời:


14

Ngoài rất nhiều ý kiến ​​(chính xác) của những người dùng khác chỉ ra rằng giá trị cho giống hệt với giá trị cho kiểm tra toàn cầu , lưu ý rằng bạn cũng có thể nhận được giá trị liên quan đến "trực tiếp" sử dụng thực tế là theo giả thuyết null được phân phối dưới dạng , trong đó và là tử số và mẫu số bậc tự do, tương ứng, cho -statistic liên quan .r 2 p F p r 2 r 2 Beta ( v npr2pFpr2r2vnvdFBeta(vn2,vd2)vnvdF

Điểm đầu dòng thứ 3 trong Xuất phát từ phần phụ phân phối khác của mục nhập Wikipedia trên bản phân phối beta cho chúng ta biết rằng:

Nếu và độc lập, thì .Y ~ χ 2 ( β ) XXχ2(α)Yχ2(β)XX+YBeta(α2,β2)

Chà, chúng ta có thể viết dưới dạng .Xr2XX+Y

Đặt là tổng số bình phương cho một biến , là tổng các lỗi bình phương cho hồi quy của trên một số biến khác và là "tổng bình phương giảm", nghĩa là . Sau đó Và tất nhiên, là tổng các bình phương, và là cả hai được phân phối lần lượt là với và bậc tự do. Do đó, Y S S E Y S S R S S R = S S Y - S S E r 2 = 1 - S S ESSYYSSEYSSRSSR=SSYSSE SSRSSEχ2vnvdr2Beta(vn

r2=1SSESSY=SSYSSESSY=SSRSSR+SSE
SSRSSEχ2vnvd
r2Beta(vn2,vd2)
(Tất nhiên, tôi đã không chỉ ra rằng hai hình vuông là độc lập. Có lẽ một nhà bình luận có thể nói điều gì đó về điều đó.)

Trình diễn trong R (mã mượn từ @gung):

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731

6

Tôi hy vọng câu trả lời thứ tư (!) Này làm rõ mọi thứ hơn nữa.

Trong hồi quy tuyến tính đơn giản, có ba bài kiểm tra tương đương:

  1. kiểm tra t cho độ dốc dân số bằng 0 của covariableX
  2. kiểm tra t cho tương quan dân số bằng 0 giữa và đáp ứngYXY
  3. F-test cho dân không R-squared, không có gì tức là của sự thay đổi của có thể được giải thích bằng khác nhau .XYX

Tất cả ba bài kiểm tra đều kiểm tra mối liên hệ tuyến tính giữa và và may mắn thay (tất cả), tất cả đều dẫn đến cùng một kết quả. Thống kê kiểm tra của họ là tương đương. (Các thử nghiệm 1 & 2 dựa trên phân phối Sinh viên với df tương ứng với phân phối F lấy mẫu của thử nghiệm 3, chỉ với thống kê kiểm tra bình phương).Y n - 2XYn2

Một ví dụ nhanh trong R:

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

Như bạn có thể thấy, ba thử nghiệm cho cùng giá trị p là 0,00218. Lưu ý rằng kiểm tra 3 là một trong dòng cuối cùng của đầu ra.

Vì vậy, bài kiểm tra F của bạn cho bình phương R là rất thường xuyên, mặc dù không có nhiều nhà thống kê đang diễn giải nó như một bài kiểm tra cho bình phương R.


5

Bạn dường như có một sự hiểu biết đàng hoàng với tôi. Chúng ta có thể lấy giá trị cho r 2 , nhưng vì nó là hàm (không ngẫu nhiên) của r , nên p s sẽ giống hệt nhau. pr2rp


Tôi không nghĩ vậy. Kết nối suy luận về r 2 để suy luận về αβ từ OLS, ρ là đáng kể nếu β là khác không, bất kể α . Tuy nhiên, r 2 có ý nghĩa nếu giá trị α hoặc β khác không. Điều này giúp hình dung những gì các bài kiểm tra tương ứng đang đánh giá. ρr2αβρβαr2αβ
AdamO

1
@AdamO, tôi không thể theo dõi lập luận trong bình luận của bạn. Tương tự như bài viết của Michael Mayer bên dưới, trong R hãy thử : set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x)). P cho r là .265. P cho b & cho bài kiểm tra F toàn cầu là giống hệt nhau, mặc dù p cho a là 6.96e-09.
gung - Phục hồi Monica

Chính xác quan điểm của tôi. khác với r 2 và giá trị p của chúng KHÔNG giống nhau. r 2 có thể là hàm của r , nhưng nó thậm chí không phải là hàm đơn điệu. r 2 có thể có ý nghĩa khi r không. Làm những gì r 2 biện pháp? Đó là lỗi tiêu chuẩn còn lại sau khi vẽ đường xu hướng OLS và tính toán số dư. Trong ví dụ của bạn, phương sai dư sẽ nhỏ hơn phương sai vô điều kiện ? Chắc chắn rồi. rr2pr2rr2rr2r 2Yr2có ý nghĩa rồi Bạn có thể tính toán các đặc điểm vận hành với bootstrap và kết nối giữa ANOVA và bình phương tối thiểu thông thường cũng làm sáng tỏ vấn đề.
AdamO

4
Bạn cũng có thể lấy giá trị liên quan đến "trực tiếp" bằng cách sử dụng theo giả thuyết null được phân phối dưới dạng , trong đó và lần lượt là bậc tự do của tử số và mẫu số cho -statistic liên quan . (Xem bản sắc thứ 3 ở đây: en.wikipedia.org/wiki/... .) Vì vậy, sử dụng @ dữ liệu ví dụ của gung, nếu trong chúng ta bước chúng tôi nhận . r 2 r 2 B e t a ( v npr2r2vnvdFBeta(vn2,vd2)vnvdFR1 - pbeta(0.06856, 1/2, 18/2)0.2647731
Jake Westfall

4
@AdamO, tôi vẫn không hiểu. Họ là cả hai .265, làm thế nào họ không giống nhau?
gung - Phục hồi Monica

4

Có một số cách để thu được những số liệu thống kê kiểm tra thử nghiệm các tương quan Pearson, . Để có được giá trị p , cần nhấn mạnh rằng bạn cần cả kiểm tra và phân phối mẫu của một thống kê kiểm tra theo giả thuyết khống. Tiêu đề và câu hỏi của bạn dường như có một số nhầm lẫn giữa tương quan Pearson và "phương sai giải thích" r 2 . Tôi sẽ xem xét hệ số tương quan đầu tiên.ρpr2

Không có cách "tốt nhất" để kiểm tra mối tương quan Pearson mà tôi biết. Phép biến đổi Z của Fisher là một cách như vậy, dựa trên các phép biến đổi hyperbol, do đó suy luận hiệu quả hơn một chút. Đây chắc chắn là một cách tiếp cận "tốt", nhưng điều đáng buồn là suy luận về tham số này phù hợp với suy luận về tham số độ dốc đối với liên kết: về lâu dài, chúng kể cùng một câu chuyện.β

ββ

r2r2r2r2αβr2


1
r2

r2=1(xi,β0)i{1,2,n}r2=1
AdamO

1

prr2rr2p

pbb0rr2r2

pa000

pr2


4
FR2FR2nF=(n2)R2/(1R2)bR2

Trong thực tế có vẻ như mọi người không nghĩ về tầm quan trọng của r hoặc r ^ 2. Những gì có thể hữu ích hơn là một khoảng tin cậy xung quanh họ.
N Brouwer
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.