Tôi đang cố gắng hiểu logic đằng sau bài kiểm tra ANOVA F trong Phân tích hồi quy tuyến tính đơn giản. Câu hỏi tôi có như sau. Khi giá trị F, tức
MSR/MSE
là lớn, chúng tôi chấp nhận mô hình là đáng kể. Logic đằng sau này là gì?
Tôi đang cố gắng hiểu logic đằng sau bài kiểm tra ANOVA F trong Phân tích hồi quy tuyến tính đơn giản. Câu hỏi tôi có như sau. Khi giá trị F, tức
MSR/MSE
là lớn, chúng tôi chấp nhận mô hình là đáng kể. Logic đằng sau này là gì?
Câu trả lời:
Trong trường hợp đơn giản nhất, khi bạn chỉ có một yếu tố dự đoán (hồi quy đơn giản), giả sử , -test sẽ cho bạn biết liệu có giải thích phần lớn hơn của phương sai quan sát được trong so với mô hình null (chỉ chặn). Sau đó, ý tưởng là kiểm tra xem phương sai được giải thích thêm (tổng phương sai, TSS, trừ phương sai dư, RSS) có đủ lớn để được coi là "số lượng đáng kể" hay không. Chúng ta ở đây so sánh một mô hình với một yếu tố dự đoán hoặc biến giải thích, với một đường cơ sở chỉ là "nhiễu" (không có gì ngoại trừ ý nghĩa lớn). F X 1 Y
Tương tự như vậy, bạn có thể tính toán thống kê trong cài đặt hồi quy bội: Trong trường hợp này, nó sẽ kiểm tra tất cả các dự đoán có trong mô hình, trong khung HT có nghĩa là chúng tôi tự hỏi liệu có bất kỳ trong số chúng có hữu ích trong việc dự đoán đáp ứng không Biến đổi. Đây là lý do tại sao bạn có thể gặp phải tình huống trong đó -test cho toàn bộ mô hình là đáng kể trong khi một số thử nghiệm hoặc liên quan đến từng hệ số hồi quy thì không.F t z
Các Thống kê trông giống như
Trong đó là số lượng tham số mô hình và số lượng quan sát. Số lượng này phải được tham chiếu đến một bản phân phối cho giá trị quan trọng hoặc giá trị . Nó cũng áp dụng cho mô hình hồi quy đơn giản và rõ ràng có một số điểm tương đồng với khung ANOVA cổ điển.n F p - 1 , n - p p
Sidenote. Khi bạn có nhiều hơn một yếu tố dự báo, thì bạn có thể tự hỏi liệu chỉ xem xét một tập hợp con của những yếu tố dự đoán đó có làm "giảm" chất lượng của mô hình phù hợp hay không. Điều này tương ứng với một tình huống mà chúng ta xem xét các mô hình lồng nhau . Đây chính xác là tình huống tương tự như các trường hợp trên, trong đó chúng ta so sánh một mô hình hồi quy đã cho với một mô hình null (không bao gồm các yếu tố dự đoán). Để đánh giá mức giảm phương sai được giải thích, chúng ta có thể so sánh tổng bình phương còn lại (RSS) từ cả hai mô hình (nghĩa là, phần còn lại không giải thích được khi bạn tính đến tác động của các yếu tố dự đoán có trong mô hình). Đặt và biểu thị mô hình cơ sở (vớiM 1 pq=p+1 RSS M 1 - RSS M 0 ( RSS M 1 - RSS M 0 ) / RSS M 0 p-qn-pFp-qn-pFFαα=0,05tham số) và một mô hình có bộ dự đoán bổ sung ( tham số), sau đó nếu là nhỏ, chúng tôi sẽ xem xét rằng mô hình nhỏ hơn hoạt động tốt như mô hình lớn hơn. Một thống kê tốt để sử dụng sẽ tỷ lệ của SS đó, , được tính theo mức độ tự do của chúng ( cho tử số và cho mẫu số). Như đã nói, có thể chỉ ra rằng đại lượng này tuân theo phân phối (hoặc Fisher-Snedecor) với mức độ tự do và . Nếu quan sátlớn hơn lượng tử tương ứng tại một (thông thường, ), sau đó chúng tôi sẽ kết luận rằng mô hình lớn hơn tạo ra "công việc tốt hơn". (Điều này không có nghĩa là mô hình là chính xác, từ quan điểm thực tế!)
Một khái quát của ý tưởng trên là thử nghiệm tỷ lệ khả năng .
Nếu bạn đang sử dụng R, bạn có thể chơi với các khái niệm trên như sau:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
hàm trong R trả về một hàng riêng cho từng bộ dự đoán trong mô hình. Ví dụ, anova(lm0)
trên trả về một hàng cho V1
, V2
và Residuals
(và tổng số không). Như vậy, chúng tôi nhận được hai thống kê F * cho mô hình này. Làm thế nào điều này thay đổi cách giải thích của thống kê F * được báo cáo trong bảng ANOVA?
anova()
để so sánh GLM. Khi được áp dụng cho một lm
hoặc một aov
đối tượng, nó sẽ hiển thị các hiệu ứng riêng biệt (SS) cho từng thuật ngữ trong mô hình và không hiển thị TSS. (Tôi sử dụng để áp dụng điều này cách khác xung quanh, cụ thể là sau khi lắp một ANOVA với aov()
, tôi có thể sử dụng summary.lm()
để có được một ý tưởng về sự tương phản điều trị.) Tuy nhiên, đang có những vấn đề tế nhị giữa summary.lm()
và summary.aov()
, đặc biệt là liên quan đến phù hợp tuần tự.