Phương pháp thống kê để so sánh hiệu chuẩn giữa các mô hình


7

Đây có vẻ là một vấn đề phổ biến nhưng tôi không thể tìm ra giải pháp.

Tôi có một bộ các quan sát nhị phân và hai mô hình khác nhau, mỗi mô hình có dự đoán cho mỗi quan sát. Tôi muốn so sánh hiệu chuẩn của các mô hình.

Có một số cách tiếp cận để so sánh sự phân biệt đối xử của các mô hình này (ví dụ: xem roc.test trong gói pROC trong R), nhưng không có cách tiếp cận nào để so sánh hiệu chuẩn. Hầu hết các bài viết thực nghiệm chỉ liệt kê các giá trị p từ hai phép thử hiệu chuẩn khác nhau đang kiểm tra xem hiệu chuẩn của từng mô hình có bị tắt hay không (ví dụ: điểm số của Hosmer-Lemeshow, điểm Brier).

Những gì tôi đang tìm kiếm là một so sánh thống kê trực tiếp về hiệu chuẩn giữa hai mô hình.

Đây là một bộ dữ liệu thử nghiệm cực đoan. Các giá trị của kiểm tra Brier, Spiegelhalter Z-test, v.v ... tất cả đều hỗ trợ p2 được hiệu chỉnh tốt hơn, và chúng tôi biết điều đó là. Bất cứ ai cũng có thể làm điều này thành một bài kiểm tra thống kê chính thức?

library("pROC")
y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101
val.prob(p1,y)
val.prob(p2,y)

Tôi không chắc tôi biết ý của bạn là gì khi hiệu chuẩn. Bạn có thể mở rộng về những gì bạn có nghĩa là? Có lẽ nó được biết đến dưới một tên khác trong một tài liệu khác
Jeremias K

Câu trả lời:


4

Như bạn đã biết điểm Brier đo hiệu chuẩn và là lỗi bình phương trung bình, , giữa các dự đoán, và các phản hồi, . Vì điểm Brier là một giá trị trung bình, nên so sánh hai điểm Brier về cơ bản là so sánh các phương tiện và bạn có thể đi theo sở thích với nó tùy thích. Tôi sẽ đề xuất hai điều và chỉ ra một phần ba:B¯=n1(y^iyi)2y^,y

Một lựa chọn: làm một bài kiểm tra t

Phản ứng ngay lập tức của tôi khi tôi nghe so sánh các phương tiện là làm một bài kiểm tra t. Lỗi bình phương có lẽ thường không được phân phối nói chung vì vậy có thể đây không phải là thử nghiệm mạnh nhất. Có vẻ tốt trong ví dụ cực đoan của bạn. Dưới đây tôi kiểm tra giả thuyết thay thế p1có MSE lớn hơn p2:

y <- rbinom(100,1,1:100/100)
p1 <- 1:100/10001
p2 <- 1:100/101

squares_1 <- (p1 - y)^2
squares_2 <- (p2 - y)^2

t.test(squares_1, squares_2, paired=T, alternative="greater")
#> 
#>  Paired t-test
#> 
#> data:  squares_1 and squares_2
#> t = 4.8826, df = 99, p-value = 2.01e-06
#> alternative hypothesis: true difference in means is greater than 0
#> 95 percent confidence interval:
#>  0.1769769       Inf
#> sample estimates:
#> mean of the differences 
#>               0.2681719

Chúng tôi nhận được một giá trị p siêu thấp. Tôi đã làm một bài kiểm tra t cặp như, quan sát để quan sát, hai bộ dự đoán so sánh với cùng một kết quả.

Một lựa chọn khác: kiểm tra hoán vị

Nếu việc phân phối các lỗi bình phương làm bạn lo lắng, có lẽ bạn không muốn đưa ra các giả định về kiểm tra t. Ví dụ, bạn có thể kiểm tra giả thuyết tương tự với kiểm tra hoán vị:

library(plyr)

observed <- mean(squares_1) - mean(squares_2)
permutations <- raply(500000, {
  swap <- sample(c(T, F), 100, replace=T)
  one <- squares_1
  one[swap] <- squares_2[swap]

  two <- squares_2
  two[swap] <- squares_1[swap]

  mean(one) - mean(two)
})

hist(permutations, prob=T, nclass=60, xlim=c(-.4, .4))
abline(v=observed, col="red")

# p-value. I add 1 so that the p-value doesn't come out 0
(sum(permutations > observed) + 1)/(length(permutations) + 1) 
#> [1] 1.999996e-06

Hai bài kiểm tra dường như đồng ý chặt chẽ.

Một số câu trả lời khác

Một tìm kiếm nhanh của trang web này khi so sánh các MSE chỉ ra bài kiểm tra Diebold-Mariano (xem câu trả lời ở đây , và một nhận xét ở đây ). Điều này trông giống như thử nghiệm của Wald và tôi đoán nó sẽ thực hiện tương tự như thử nghiệm t ở trên.


1
Chỉ là một số thực phẩm cho suy nghĩ (mà tôi cũng không chắc lắm về bản thân mình): với tôi đây dường như không phải là sự so sánh về điểm số Brier, mà là sự so sánh về số dư của mô hình. IMO điều này khá thông minh và đơn giản, nhưng hãy nhớ rằng ở đâu có một mô hình dự đoán khá chính xác với xác suất dự đoán thấp hơn và một mô hình khác dự đoán chính xác với xác suất dự đoán cao, chúng dường như có hiệu suất tương đương. Vì vậy, không tính đến một số kiến ​​thức trước đây về khu vực quan trọng nhất, tôi cũng khuyên bạn nên xem xét các sơ đồ hiệu chuẩn.
IWS

@IWS cảm ơn bạn đã bình luận của bạn. Tôi đoán nó có thể phụ thuộc vào dự đoán của câu hỏi đến từ đâu? Có lẽ tôi sẽ so sánh số dư trung bình nếu chúng đến từ cùng một dữ liệu mà mô hình phù hợp và điểm Brier phù hợp nếu chúng đến từ, ví dụ, xác thực chéo hoặc một số bộ dữ liệu mới. Trừ khi tôi hiểu lầm bạn. Tôi đồng ý về quan điểm của bạn về khu vực quan trọng nhất: có thể có hiệu chuẩn phù hợp với mô hình chỉ đánh chặn nhưng dự đoán sẽ vô ích.
einar

Cảm ơn bạn đã trả lời tuyệt vời của bạn einar. Rất hữu ích.
R_G

0

Nếu tôi hiểu chính xác, bạn muốn có một cách để so sánh hai mô hình hồi quy logistic hoặc bất kỳ phương án nào để mô hình hóa kết quả nhị phân.

Đối với tôi, điều quan trọng là phải thấy rằng cách 'chính xác' để so sánh các mô hình, phụ thuộc vào mục đích phân tích của bạn.

Nếu chỉ có dự đoán nhị phân (có / không) có vấn đề, một mô hình dự đoán p = 0,51 cho mọi trường hợp có hiệu quả là đúng và dự đoán p = 0,49 cho mọi trường hợp có hiệu quả là sai, là hoàn hảo, trong khi điểm số brier sẽ không thật tốt Trong trường hợp này, tôi sẽ so sánh các mô hình dựa trên% dự đoán nhị phân chính xác.

Ngoài ra, có thể là dương tính giả còn tệ hơn âm tính giả. Bạn có thể xác định chức năng điểm số kết hợp tính năng này (so sánh dự đoán nhị phân, nhưng với hình phạt lớn hơn cho kết quả dương tính giả).

Tất nhiên, nếu điều quan trọng là phải dự đoán xác suất càng tốt càng tốt, các biện pháp như điểm số của brier là tốt hơn.

Cuối cùng, nếu dự đoán là mục tiêu (nhị phân hoặc xác suất), nó sẽ luôn xem xét sử dụng xác nhận chéo trong việc tính toán điểm số. Điều thú vị hơn là đánh giá cách một người mẫu dự đoán dữ liệu 'mới' thay vì chính tập tin.


0

Để tham khảo trong tương lai, IMO câu trả lời đầu tiên không giải quyết vấn đề hiệu chuẩn. Xem xét dự đoán được tạo bởi một mô hình hợp lý, được hiệu chỉnh tốt cho các giá trị đầu vào . Bây giờ hãy xem xét một nhóm dự đoán thứ hai được tạo bởi một mô hình chỉ đơn giản là xáo trộn các dự đoán của mô hình đầu tiên trong mỗi mô hình hai lớp và xuất chúng theo thứ tự ngẫu nhiên. Mô hình thứ hai có khả năng được hiệu chuẩn kém so với mô hình được hiệu chuẩn tốt đầu tiên, nhưng điểm số của hai mô hình sẽ giống nhau.y^1,y^2...,y^nx1,x2,...,xny~1,y~2,...,y~n

Như đã nêu trong câu hỏi ban đầu, tôi khuyên bạn nên xem xét nghiệm thử nghiệm Lemmerow của Lemmer, và so sánh các thống kê kiểm tra HL được tính toán cho các dự đoán của từng mô hình (Một thống kê HL lớn hơn cho thấy hiệu chuẩn kém hơn).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.