Sức mạnh của bài kiểm tra hồi quy F là gì?


11

Phép thử F cổ điển cho các tập hợp con của các biến trong hồi quy đa tuyến có dạng trong đóSSE(R)là tổng các lỗi bình phương theo mô hình 'rút gọn', nằm bên trong mô hình 'lớn'Bdflà mức độ tự do của hai mô hình. Theo giả thuyết khống rằng các biến phụ trong mô hình 'lớn' không có khả năng giải thích tuyến tính, thống kê được phân phối dưới dạng F vớidfR-dfBdfBbậc tự do.

F=(SSE(R)SSE(B))/(dfRdfB)SSE(B)/dfB,
SSE(R)BdfdfRdfBdfB

Phân phối, tuy nhiên, dưới sự thay thế là gì? Tôi giả sử nó là một F không trung tâm (tôi hy vọng không phải là không trung tâm), nhưng tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào về chính xác tham số phi trung tâm là gì. Tôi sẽ đoán nó phụ thuộc vào các hệ số hồi quy đúng , và có lẽ về thiết kế ma trận X , nhưng ngoài ra tôi không như vậy chắc chắn.βX

Câu trả lời:


9

Tham số noncentrality là , phép chiếu cho mô hình hạn chế là P r , β là vector của các thông số đúng, X là ma trận thiết kế cho không hạn chế mô hình (true), | | x | | là định mức:δ2PrβX||x||

δ2=||XβPrXβ||2σ2

Bạn có thể đọc công thức như thế này: là vector của dự kiến giá trị có điều kiện trên ma trận thiết kế X . Nếu bạn đối xử với X β như một thực nghiệm vector dữ liệu y , sau đó chiếu của nó vào mô hình không gian con hạn chế là P r X β , mang đến cho bạn những dự đoán y từ mô hình hạn chế cho rằng "dữ liệu". Do đó, X β - P r X β là tương tự như y - yE(y|X)=XβXXβyPrXβy^XβPrXβyy^và cung cấp cho bạn lỗi của dự đoán đó. Do đó cho tổng bình phương của lỗi đó. Nếu mô hình hạn chế là đúng, sau đó X β đã nằm trong không gian con được xác định bởi X r , và P r X β = X β , như vậy mà các tham số noncentrality là 0 .||XβPrXβ||2XβXrPrXβ=Xβ0

Bạn nên tìm thấy điều này ở Mardia, Kent & Bibby. (1980). Phân tích đa biến.


tuyệt quá! định mức có nên bình phương? Nếu không thì có vẻ như các đơn vị quan trọng? Bạn nói nó là 'tổng bình phương', vì vậy tôi nghĩ đó là bình phương bình thường ..
shabbychef

@shabbychef Tất nhiên là bạn đúng, cảm ơn vì đã nắm bắt được điều đó!
caracal

7

δ2=||Xβ1Xβ2||2σ2,

CDF theo kinh nghiệm về những gì nên bình thường

Đây là mã R (xin lỗi về phong cách, tôi vẫn đang học):

#sum of squares
sum2 <- function(x) { return(sum(x * x)) }
#random integer between n and 2n
rint <- function(n) { return(ceiling(runif(1,min=n,max=2*n))) }
#generate random instance from linear model plus noise.
#n observations of p2 vector
#regress against all variables and against a subset of p1 of them
#compute the F-statistic for the test of the p2-p1 marginal variables
#compute the p-value under the putative non-centrality parameter
gend <- function(n,p1,p2,sig = 1) {
 beta2 <- matrix(rnorm(p2,sd=0.1),nrow=p2)
 beta1 <- matrix(beta2[1:p1],nrow=p1)
 X <- matrix(rnorm(n*p2),nrow=n,ncol=p2)
 yt1 <- X[,1:p1] %*% beta1
 yt2 <- X %*% beta2
 y <- yt2 + matrix(rnorm(n,mean=0,sd=sig),nrow=n)
 ncp <- (sum2(yt2 - yt1)) / (sig ** 2)
 bhat2 <- lm(y ~ X - 1)
 bhat1 <- lm(y ~ X[,1:p1] - 1)
 SSE1 <- sum2(bhat1$residual)
 SSE2 <- sum2(bhat2$residual)
 df1 <- bhat1$df.residual
 df2 <- bhat2$df.residual
 Fstat <- ((SSE1 - SSE2) / (df1 - df2)) / (SSE2 / bhat2$df.residual)
 pval <- pf(Fstat,df=df1-df2,df2=df2,ncp=ncp)
 return(pval)
}
#call the above function, but randomize the problem size (within reason)
genr <- function(n,p1,p2,sig=1) {
 use.p1 <- rint(p1)
 use.p2 <- use.p1 + rint(p2 - p1)
 return(gend(n=rint(n),p1=use.p1,p2=use.p2,sig=sig+runif(1)))
}
ntrial <- 4096
ssize <- 256
z <- replicate(ntrial,genr(ssize,p1=4,p2=10))
plot(ecdf(z))

2
+1 để theo dõi với mã. Luôn luôn tốt để thấy rằng.
mpiktas
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.