Làm cách nào để tính điểm tự tin trong hồi quy (với rừng ngẫu nhiên / XGBoost) cho mỗi dự đoán trong R?


11

Có cách nào để có được điểm tin cậy (chúng ta có thể gọi đó là giá trị độ tin cậy hoặc khả năng) cho từng giá trị dự đoán khi sử dụng các thuật toán như Rừng ngẫu nhiên hoặc Tăng cường độ dốc cực cao (XGBoost)? Giả sử điểm số tự tin này sẽ dao động từ 0 đến 1 và cho thấy tôi tự tin như thế nào về một dự đoán cụ thể .

Từ những gì tôi đã tìm thấy trên internet về sự tự tin, thông thường nó được đo bằng các khoảng. Dưới đây là một ví dụ về khoảng tin cậy được tính toán với confpredchức năng từ lavathư viện:

library(lava)
set.seed(123)
n     <- 200
x     <- seq(0,6,length.out=n)
delta <- 3
ss    <- exp(-1+1.5*cos((x-delta)))
ee    <- rnorm(n,sd=ss)
y     <- (x-delta)+3*cos(x+4.5-delta)+ee
d     <- data.frame(y=y,x=x)
newd  <- data.frame(x=seq(0,6,length.out=50))
cc    <- confpred(lm(y~poly(x,3),d),data=d,newdata=newd)
if (interactive()) { ##'
  plot(y~x,pch=16,col=lava::Col("black"), ylim=c(-10,15),xlab="X",ylab="Y")
  with(cc, lava::confband(newd$x, lwr, upr, fit,  lwd=3, polygon=T, 
                          col=Col("blue"), border=F))
}

Đầu ra mã chỉ cung cấp khoảng tin cậy:

biểu đồ hiển thị điểm, dự đoán và khoảng tin cậy

Ngoài ra còn có một thư viện conformal, nhưng tôi cũng được sử dụng cho các khoảng tin cậy trong hồi quy: "tuân thủ cho phép tính toán các lỗi dự đoán trong khung dự đoán tuân thủ: (i) p.values ​​để phân loại và (ii) khoảng tin cậy cho hồi quy. "

Vì vậy, có một cách:

  1. Để có được giá trị độ tin cậy cho từng dự đoán trong bất kỳ vấn đề hồi quy nào?

  2. Nếu không có cách nào, nó sẽ có ý nghĩa khi sử dụng cho mỗi lần quan sát như một điểm tự tin này:

    khoảng cách giữa ranh giới trên và dưới của khoảng tin cậy (như trong ví dụ đầu ra ở trên). Vì vậy, trong trường hợp này, khoảng tin cậy càng rộng thì càng không chắc chắn (nhưng điều này không tính đến trong đó trong khoảng là giá trị thực)


1
Tìm trong randomForestCIgói của Stephan Wager, và giấy liên quan với Susan Athey. Lưu ý rằng nó chỉ cung cấp các TCTD 'nhưng bạn có thể tạo khoảng dự đoán từ nó bằng cách tính toán phương sai còn lại.
generic_user

Câu trả lời:


4

Những gì bạn đang đề cập đến như là một điểm số tin cậy có thể thu được từ sự không chắc chắn trong các dự đoán riêng lẻ (ví dụ: bằng cách lấy nghịch đảo của nó).

Định lượng sự không chắc chắn này luôn luôn có thể với việc đóng bao và tương đối đơn giản trong các khu rừng ngẫu nhiên - nhưng những ước tính này đã bị sai lệch. Đánh cuộc và cộng sự (2014) đã mô tả hai thủ tục để có được những sự không chắc chắn này hiệu quả hơn và ít sai lệch hơn. Điều này được dựa trên các phiên bản sửa lỗi thiên vị của jackknife-after-bootstrap và jackknife vô hạn. Bạn có thể tìm thấy các triển khai trong các gói R rangergrf.

Gần đây, điều này đã được cải thiện bằng cách sử dụng các khu rừng ngẫu nhiên được xây dựng bằng cây suy luận có điều kiện. Dựa trên các nghiên cứu mô phỏng (Brokamp et al. 2018), công cụ ước tính jackknife vô hạn xuất hiện để ước tính chính xác hơn lỗi trong dự đoán khi cây suy luận có điều kiện được sử dụng để xây dựng các khu rừng ngẫu nhiên. Điều này được thực hiện trong gói RFinfer.


Đánh cuộc, S., Hastie, T., & Efron, B. (2014). Khoảng tin cậy cho các khu rừng ngẫu nhiên: jackknife và jackknife vô hạn. Tạp chí nghiên cứu máy học, 15 (1), 1625-1651.

Brokamp, ​​C., Rao, MB, Ryan, P., & Jandarov, R. (2017). Một so sánh các phương pháp phân chia lại và phân chia đệ quy trong rừng ngẫu nhiên để ước tính phương sai tiệm cận bằng cách sử dụng jackknife vô hạn. Thống kê, 6 (1), 360-372.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.