Như bạn đã biết điểm Brier đo hiệu chuẩn và là lỗi bình phương trung bình, , giữa các dự đoán, và các phản hồi, . Vì điểm Brier là một giá trị trung bình, nên so sánh hai điểm Brier về cơ bản là so sánh các phương tiện và bạn có thể đi theo sở thích với nó tùy thích. Tôi sẽ đề xuất hai điều và chỉ ra một phần ba:B¯=n−1∑(y^i−yi)2y^,y
Một lựa chọn: làm một bài kiểm tra t
Phản ứng ngay lập tức của tôi khi tôi nghe so sánh các phương tiện là làm một bài kiểm tra t. Lỗi bình phương có lẽ thường không được phân phối nói chung vì vậy có thể đây không phải là thử nghiệm mạnh nhất. Có vẻ tốt trong ví dụ cực đoan của bạn. Dưới đây tôi kiểm tra giả thuyết thay thế p1
có MSE lớn hơn p2
:
y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101
squares_1 <- (p1 - y)^2
squares_2 <- (p2 - y)^2
t.test(squares_1, squares_2, paired=T, alternative="greater")
#>
#> Paired t-test
#>
#> data: squares_1 and squares_2
#> t = 4.8826, df = 99, p-value = 2.01e-06
#> alternative hypothesis: true difference in means is greater than 0
#> 95 percent confidence interval:
#> 0.1769769 Inf
#> sample estimates:
#> mean of the differences
#> 0.2681719
Chúng tôi nhận được một giá trị p siêu thấp. Tôi đã làm một bài kiểm tra t cặp như, quan sát để quan sát, hai bộ dự đoán so sánh với cùng một kết quả.
Một lựa chọn khác: kiểm tra hoán vị
Nếu việc phân phối các lỗi bình phương làm bạn lo lắng, có lẽ bạn không muốn đưa ra các giả định về kiểm tra t. Ví dụ, bạn có thể kiểm tra giả thuyết tương tự với kiểm tra hoán vị:
library(plyr)
observed <- mean(squares_1) - mean(squares_2)
permutations <- raply(500000, {
swap <- sample(c(T, F), 100, replace=T)
one <- squares_1
one[swap] <- squares_2[swap]
two <- squares_2
two[swap] <- squares_1[swap]
mean(one) - mean(two)
})
hist(permutations, prob=T, nclass=60, xlim=c(-.4, .4))
abline(v=observed, col="red")
# p-value. I add 1 so that the p-value doesn't come out 0
(sum(permutations > observed) + 1)/(length(permutations) + 1)
#> [1] 1.999996e-06
Hai bài kiểm tra dường như đồng ý chặt chẽ.
Một số câu trả lời khác
Một tìm kiếm nhanh của trang web này khi so sánh các MSE chỉ ra bài kiểm tra Diebold-Mariano (xem câu trả lời ở đây , và một nhận xét ở đây ). Điều này trông giống như thử nghiệm của Wald và tôi đoán nó sẽ thực hiện tương tự như thử nghiệm t ở trên.