Bằng chứng là thống kê F tuân theo phân phối F


20

Trước câu hỏi này: Chứng minh rằng các hệ số trong mô hình OLS tuân theo phân phối t với (nk) bậc tự do

Tôi rất muốn hiểu tại sao

F=(TSSRSS)/(p1)RSS/(np),

Trong đó là số lượng tham số mô hình và số lượng quan sát và tổng phương sai, phương sai dư, tuân theo phân phối của .pnTSSRSSFp1,np

Tôi phải thừa nhận tôi thậm chí không cố gắng chứng minh điều đó vì tôi không biết bắt đầu từ đâu.


Christoph Hanck và Francis đã đưa ra một câu trả lời rất hay rồi. Nếu bạn vẫn gặp khó khăn trong việc tìm hiểu bằng chứng về kiểm tra f cho hồi quy tuyến tính, hãy thử kiểm tra teamdable.github.io/techblog/ trên . Tôi đã viết bài đăng trên blog về bằng chứng của sự chậm nhất cho hồi quy tuyến tính. Nó được viết bằng tiếng Hàn nhưng nó có thể không phải là vấn đề vì hầu hết tất cả đều là công thức toán học. Tôi hy vọng nó sẽ có ích nếu bạn vẫn gặp khó khăn trong việc tìm hiểu bằng chứng kiểm tra f cho hồi quy tuyến tính.
Taeho Oh

Mặc dù liên kết này có thể trả lời câu hỏi, tốt hơn là bao gồm các phần thiết yếu của câu trả lời ở đây và cung cấp liên kết để tham khảo. Câu trả lời chỉ liên kết có thể trở nên không hợp lệ nếu trang được liên kết thay đổi. - Từ đánh giá
mkt - Phục hồi Monica

Câu trả lời:


19

Hãy để chúng tôi hiển thị kết quả cho trường hợp chung trong đó công thức của bạn cho thống kê kiểm tra là trường hợp đặc biệt. Nói chung, chúng tôi cần xác minh rằng số liệu thống kê có thể, theo đặc tính của phân phốiF , được viết dưới dạng tỷ lệ độc lập rvs chia cho mức độ tự do của chúng.χ2

Đặt với và biết, nonrandom và có thứ hạng cột đầy đủ . Điều này thể hiện hạn chế tuyến tính đối với (không giống như trong ký hiệu OP) hồi quy bao gồm cả số hạng không đổi. Vì vậy, trong ví dụ của @ user1627466, tương ứng với các hạn chế về việc đặt tất cả các hệ số độ dốc về 0.H0:Rβ=rRrR:k×qqqkp1q=k1

Theo quan điểm của , chúng tôi có sao cho (với là "căn bậc hai ma trận" của , thông qua, ví dụ: a Phân rã cholesky) là Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
trong đó dòng thứ hai sử dụng phương sai của OLSE.

Điều này, như thể hiện trong câu trả lời mà bạn liên kết đến (xem thêm ở đây ), độc lập với trong đó là ước tính phương sai lỗi không thiên vị thông thường, với là 'dư ma trận sản xuất' từ suy thoái trên .

d:=(nk)σ^2σ2χnk2,
σ 2=y'MXy/(n-k)MX=I-X(X'X)-1X'Xσ^2=yMXy/(nk)MX=IX(XX)1XX

Vì vậy, vì là một hình thức bậc hai theo quy tắc, Đặc biệt, trong , điều này làm giảm số liệu thống kê nn

nnχq2/qd/(nk)=(β^olsβ)R{R(XX)1R}1R(β^olsβ)/qσ^2Fq,nk.
H0:Rβ=r
F=(Rβ^olsr){R(XX)1R}1(Rβ^olsr)/qσ^2Fq,nk.

Mang tính minh họa, hãy xem xét các trường hợp đặc biệt , , , và . Sau đó, khoảng cách Euclide bình phương của OLS ước tính từ nguồn gốc được chuẩn hóa theo số lượng phần tử - làm nổi bật rằng, vì là các quy tắc chuẩn bình phương và do đó , có thể thấy phân phối dưới dạng phân phối "trung bình .R=Ir=0q=2σ 2 = 1 X ' X = I F = β ' ols β ols / 2 = β 2 ols , 1 + β 2 ols , 2σ^2=1XX=I

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
β2ols,2χ21Fχ2β^ols,22χ12Fχ2

Trong trường hợp bạn thích một mô phỏng nhỏ (tất nhiên không phải là bằng chứng!), Trong đó null được kiểm tra rằng không có biến hồi quy trọng - điều mà chúng thực sự không có, do đó chúng tôi mô phỏng phân phối null.k

nhập mô tả hình ảnh ở đây

Chúng tôi thấy thỏa thuận rất tốt giữa mật độ lý thuyết và biểu đồ thống kê kiểm tra Monte Carlo.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Để thấy rằng các phiên bản của thống kê kiểm tra trong câu hỏi và câu trả lời thực sự tương đương nhau, lưu ý rằng null tương ứng với các hạn chế và .R=[0I]r=0

Đặt được phân vùng theo các hệ số được giới hạn bằng 0 dưới giá trị null (trong trường hợp của bạn, tất cả trừ hằng số, nhưng đạo hàm phải tuân theo là chung). Ngoài ra, hãy để là ước tính OLS được phân vùng phù hợp.X=[X1X2]β ols = ( β ' ols , 1 , β ' ols , 2 ) 'β^ols=(β^ols,1,β^ols,2)

Sau đó, và khối dưới bên phải của Bây giờ, hãy sử dụng kết quả cho các nghịch đảo được phân vùng để có được trong đó .

Rβ^ols=β^ols,2
R(XX)1RD~,
(XTX)1=(X1X1X1X2X2X1X2X2)1(A~B~C~D~)
~ D =(X ' 2 X2-X ' 2 X1(X ' 1 X1)-1X ' 1 X2)-1=(X ' 2 M X 1 X2)-1M X 1 =I
D~=(X2X2X2X1(X1X1)1X1X2)1=(X2MX1X2)1
MX1=IX1(X1X1)1X1

Do đó, tử số của thống kê trở thành (không chia cho ) Tiếp theo, hãy nhớ lại rằng theo định lý Frisch-Waugh-Lovell, chúng ta có thể viết sao cho Fq

Fnum=β^ols,2(X2MX1X2)β^ols,2
β^ols,2=(X2MX1X2)1X2MX1y
Fnum=yMX1X2(X2MX1X2)1(X2MX1X2)(X2MX1X2)1X2MX1y=yMX1X2(X2MX1X2)1X2MX1y

Vẫn còn cho thấy tử số này giống hệt với , sự khác biệt về tổng số dư không giới hạn và giới hạn của bình phương.USSRRSSR

Ở đây, là tổng bình phương còn lại từ hồi quy trên , nghĩa là, áp dụng . Trong trường hợp đặc biệt của bạn, đây chỉ là , phần dư của hồi quy trên hằng số.

RSSR=yMX1y
yX1H0TSS=i(yiy¯)2

Một lần nữa sử dụng FWL (cũng cho thấy phần dư của hai cách tiếp cận giống hệt nhau), chúng ta có thể viết (SSR trong ký hiệu của bạn) dưới dạng SSR của hồi quy USSR

MX1yonMX1X2

Đó là,

USSR=yMX1MMX1X2MX1y=yMX1(IPMX1X2)MX1y=yMX1yyMX1MX1X2((MX1X2)MX1X2)1(MX1X2)MX1y=yMX1yyMX1X2(X2MX1X2)1X2MX1y

Như vậy

RSSRUSSR=yMX1y(yMX1yyMX1X2(X2MX1X2)1X2MX1y)=yMX1X2(X2MX1X2)1X2MX1y


Cảm ơn. Tôi không biết nếu nó được coi là nắm tay vào thời điểm này nhưng làm thế nào để bạn đi từ tổng số betas bình phương của bạn đến một biểu thức có chứa tổng bình phương?
dùng1627466

1
@ user1627466, tôi đã thêm một dẫn xuất về sự tương đương của hai công thức.
Christoph Hanck

4

@ChristophHanck đã cung cấp một câu trả lời rất toàn diện, ở đây tôi sẽ thêm một bản phác thảo bằng chứng về trường hợp đặc biệt mà OP đã đề cập. Hy vọng nó cũng dễ dàng hơn để làm theo cho người mới bắt đầu.

Một biến ngẫu nhiên nếu trong đó và độc lập. Do đó, để chỉ ra rằng -statistic có phân phối, chúng tôi cũng có thể chỉ ra rằng và đối với một số hằng số và chúng độc lập.YFd1,d2X

Y=X1/d1X2/d2,
X1χd12X2χd22FFcESSχp12cRSSχnp2c

Trong mô hình OLS, chúng ta viết trong đó là ma trận và lý tưởng là . Để thuận tiện, chúng tôi giới thiệu ma trận mũ (lưu ý ) và nhà sản xuất còn lại . Các tính chất quan trọng của và là cả hai đều đối xứng và không đối xứng. Ngoài ra, chúng tôi có và , những thứ này sẽ có ích sau này.X n × p

y=Xβ+ε,
Xn×pεNn(0,σ2I)H=X(XTX)1XTy^=HyM=IHHMtr(H)=pHX=X

Chúng ta hãy biểu thị ma trận của tất cả các ma trận là , tổng bình phương sau đó có thể được biểu thị bằng các hình thức bậc hai:Lưu ý rằng . Người ta có thể xác minh rằng là idempotent và . Nó sau từ này sau đó cũng là idempotent và .JM+(H-

TSS=yT(I1nJ)y,RSS=yTMy,ESS=yT(H1nJ)y.
M+(HJ/n)+J/n=IJ/nrank(M)+rank(HJ/n)+rank(J/n)=nHJ/nM(HJ/n)=0

Bây giờ chúng ta có thể đặt ra để chỉ ra rằng -statistic có phân phối (tìm kiếm định lý của Cochran để biết thêm). Ở đây chúng ta cần hai sự thật:FF

  1. Đặt . Giả sử đối xứng với thứ hạng và là idempotent, thì , tức là không trung tâm với df và không trung tâm . Đây là một trường hợp đặc biệt về kết quả của Baldessari , một bằng chứng cũng có thể được tìm thấy ở đây .xNn(μ,Σ)ArAΣxTAxχr2(μTAμ/2)χ2rμTAμ/2
  2. Đặt . Nếu , thì và là độc lập. Điều này được gọi là định lý của Craig .xNn(μ,Σ)AΣB=0xTAxxTBx

Vì , chúng tôi cóTuy nhiên, theo giả thuyết null , vì vậy thực sự . Mặt khác, lưu ý rằng từ . Do đó . Vì , và cũng độc lập. Nó ngay lập tức sau đóyNn(Xβ,σ2I)β=0ESS/σ2~χ2 p - 1 yT

ESSσ2=(yσ)T(H1nJ)yσχp12((Xβ)T(HJn)Xβ).
β=0ESS/σ2χp12yTMy=εTMεHX=XRSS/σ2χnp2M(HJ/n)=0ESS/σ2RSS/σ2
F=(TSSRSS)/(p1)RSS/(np)=ESSσ2/(p1)RSSσ2/(np)Fp1,np.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.