Có cách nào để có được điểm tin cậy (chúng ta có thể gọi đó là giá trị độ tin cậy hoặc khả năng) cho từng giá trị dự đoán khi sử dụng các thuật toán như Rừng ngẫu nhiên hoặc Tăng cường độ dốc cực cao (XGBoost)? Giả sử điểm số tự tin này sẽ dao động từ 0 đến 1 và cho thấy tôi tự tin như thế nào về một dự đoán cụ thể .
Từ những gì tôi đã tìm thấy trên internet về sự tự tin, thông thường nó được đo bằng các khoảng. Dưới đây là một ví dụ về khoảng tin cậy được tính toán với confpred
chức năng từ lava
thư viện:
library(lava)
set.seed(123)
n <- 200
x <- seq(0,6,length.out=n)
delta <- 3
ss <- exp(-1+1.5*cos((x-delta)))
ee <- rnorm(n,sd=ss)
y <- (x-delta)+3*cos(x+4.5-delta)+ee
d <- data.frame(y=y,x=x)
newd <- data.frame(x=seq(0,6,length.out=50))
cc <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
with(cc, lava::confband(newd$x, lwr, upr, fit, lwd=3, polygon=T,
col=Col("blue"), border=F))
}
Đầu ra mã chỉ cung cấp khoảng tin cậy:
Ngoài ra còn có một thư viện conformal
, nhưng tôi cũng được sử dụng cho các khoảng tin cậy trong hồi quy: "tuân thủ cho phép tính toán các lỗi dự đoán trong khung dự đoán tuân thủ: (i) p.values để phân loại và (ii) khoảng tin cậy cho hồi quy. "
Vì vậy, có một cách:
Để có được giá trị độ tin cậy cho từng dự đoán trong bất kỳ vấn đề hồi quy nào?
Nếu không có cách nào, nó sẽ có ý nghĩa khi sử dụng cho mỗi lần quan sát như một điểm tự tin này:
khoảng cách giữa ranh giới trên và dưới của khoảng tin cậy (như trong ví dụ đầu ra ở trên). Vì vậy, trong trường hợp này, khoảng tin cậy càng rộng thì càng không chắc chắn (nhưng điều này không tính đến trong đó trong khoảng là giá trị thực)
randomForestCI
gói của Stephan Wager, và giấy liên quan với Susan Athey. Lưu ý rằng nó chỉ cung cấp các TCTD 'nhưng bạn có thể tạo khoảng dự đoán từ nó bằng cách tính toán phương sai còn lại.