Tôi đang sử dụng hồi quy logistic để dự đoán khả năng xảy ra sự kiện. Cuối cùng, những xác suất này được đưa vào một môi trường sản xuất, nơi chúng tôi tập trung nhiều nhất có thể vào việc đưa ra dự đoán "Có" của mình. Do đó, rất hữu ích khi chúng tôi có ý tưởng về những gì "hit" hay "non-hit" dứt khoát có thể là một ưu tiên (trước khi chạy trong sản xuất), ngoài các biện pháp khác mà chúng tôi sử dụng để thông báo cho quyết định này.
Câu hỏi của tôi là, đâu sẽ là cách thích hợp để dự đoán một lớp xác định (1,0) dựa trên xác suất dự đoán? Cụ thể, tôi sử dụng glmnet
gói R cho mô hình của mình. Gói này tùy ý chọn 0,5 xác suất làm ngưỡng cho có hoặc không. Tôi tin rằng tôi cần lấy kết quả của một quy tắc chấm điểm thích hợp, dựa trên xác suất dự đoán, để ngoại suy thành một lớp xác định. Một ví dụ về quy trình mô hình hóa của tôi là dưới đây:
mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)
# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial',
type.measure = 'auc')
# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')
# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)
Vì vậy, bây giờ tôi có một loạt điểm Brier cho mỗi dự đoán, nhưng sau đó, làm thế nào để tôi sử dụng điểm Brier để cân nhắc một cách thích hợp mỗi khả năng là có hay không?
Tôi hiểu rằng cũng có những phương pháp khác để đưa ra quyết định này, chẳng hạn như Rừng ngẫu nhiên.