Sử dụng quy tắc chấm điểm thích hợp để xác định tư cách thành viên của lớp từ hồi quy logistic


8

Tôi đang sử dụng hồi quy logistic để dự đoán khả năng xảy ra sự kiện. Cuối cùng, những xác suất này được đưa vào một môi trường sản xuất, nơi chúng tôi tập trung nhiều nhất có thể vào việc đưa ra dự đoán "Có" của mình. Do đó, rất hữu ích khi chúng tôi có ý tưởng về những gì "hit" hay "non-hit" dứt khoát có thể là một ưu tiên (trước khi chạy trong sản xuất), ngoài các biện pháp khác mà chúng tôi sử dụng để thông báo cho quyết định này.

Câu hỏi của tôi là, đâu sẽ là cách thích hợp để dự đoán một lớp xác định (1,0) dựa trên xác suất dự đoán? Cụ thể, tôi sử dụng glmnetgói R cho mô hình của mình. Gói này tùy ý chọn 0,5 xác suất làm ngưỡng cho có hoặc không. Tôi tin rằng tôi cần lấy kết quả của một quy tắc chấm điểm thích hợp, dựa trên xác suất dự đoán, để ngoại suy thành một lớp xác định. Một ví dụ về quy trình mô hình hóa của tôi là dưới đây:

mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)

# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', 
type.measure = 'auc')

# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')

# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)

Vì vậy, bây giờ tôi có một loạt điểm Brier cho mỗi dự đoán, nhưng sau đó, làm thế nào để tôi sử dụng điểm Brier để cân nhắc một cách thích hợp mỗi khả năng là có hay không?

Tôi hiểu rằng cũng có những phương pháp khác để đưa ra quyết định này, chẳng hạn như Rừng ngẫu nhiên.

Câu trả lời:


6

Những gì bạn cần làm là "đưa mô hình vào sản xuất", nghĩa là, như bạn nói, để thực sự dự đoán trường hợp nào sẽ là "có", cái bạn cần là hàm mất . Bạn có hai lỗi có thể xảy ra, nói "có" khi không, nói "không" khi có. Những lỗi này có hậu quả kinh tế, chi phí liên quan? Những chi phí này có phụ thuộc vào những thứ khác nữa không, chẳng hạn như một số giá trị đồng biến cụ thể? Sau đó, bạn xây dựng các thông tin này thành một hàm chi phí và bạn có thể xác định các điểm cắt bằng cách giảm thiểu chi phí dự kiến. Đó là giải pháp nguyên tắc.


1
Vâng, đây thực sự là những gì chúng ta cần, ví dụ chi phí để xem xét trên mỗi đơn vị. Tôi sẽ làm bài tập về nhà để tạo một hàm mất mát thích hợp, nhưng tôi có bao gồm một biện pháp như quy tắc tính điểm vào đây không?
NiuBiBang

Một vị trí thích hợp rul một chức năng mất là hai khái niệm riêng biệt! Hàm mất mát chỉ nên đo lường hậu quả kinh tế và quy tắc chấm điểm thích hợp không liên quan gì đến điều đó.
kjetil b halvorsen 30/07/14
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.