Làm thế nào để chọn chiều rộng thùng tối ưu trong khi hiệu chỉnh mô hình xác suất?


12

Bối cảnh: Có một số câu hỏi / câu trả lời tuyệt vời ở đây về cách hiệu chỉnh các mô hình dự đoán xác suất của kết quả xảy ra. Ví dụ

  1. Điểm Brier , và sự phân hủy của nó thành độ phân giải, độ không chắc chắn và độ tin cậy .
  2. Đồ thị hiệu chuẩn và hồi quy đẳng hướng .

Các phương pháp này thường yêu cầu sử dụng phương pháp tạo thùng theo xác suất dự đoán, để hành vi của kết quả (0, 1) được làm mịn trên thùng bằng cách lấy kết quả trung bình.

Vấn đề: Tuy nhiên, tôi không thể tìm thấy bất cứ điều gì hướng dẫn tôi cách chọn chiều rộng thùng.

Câu hỏi: Làm thế nào để tôi chọn chiều rộng thùng tối ưu?

Nỗ lực: Hai chiều rộng thùng phổ biến được sử dụng dường như là:

  1. Tạo độ rộng bằng nhau, ví dụ 10 thùng mỗi thùng chiếm 10% khoảng thời gian [0, 1].
  2. Phương pháp tạo thùng của Tukey đã thảo luận ở đây .

Nhưng những lựa chọn này của các thùng là tối ưu nhất nếu người ta quan tâm đến việc tìm các khoảng trong các xác suất dự đoán được tính toán sai nhất?


1
Nếu kết quả "1" là hiếm thì đáng để xem xét chia cho các thùng có số lượng "1" bằng nhau thay vì số lượng mẫu bằng nhau. Điều này có thể giúp duy trì sự phân biệt đối xử (AUC) của mô hình sau khi hiệu chuẩn
ihadanny

Câu trả lời:


4

Bất kỳ phương pháp thống kê nào sử dụng binning cuối cùng đã bị coi là lỗi thời. Ước tính đường cong hiệu chuẩn liên tục đã được phổ biến từ giữa những năm 1990. Các phương pháp thường được sử dụng là hoàng thổ (đã tắt phát hiện ngoại lệ), hiệu chuẩn logistic tuyến tính và hiệu chuẩn logistic spline. Tôi đi sâu vào chi tiết này trong cuốn sách Chiến lược mô hình hồi quy và ghi chú khóa học của tôi. Xem http://www.fharrell.com/p/blog-page.html . rmsGói R làm cho các đường cong hiệu chuẩn không theo tỷ lệ dễ dàng có được, bằng cách sử dụng một mẫu bên ngoài độc lập hoặc sử dụng bootstrap trên mẫu phát triển mô hình ban đầu.


0

Theo kinh nghiệm của tôi, binning rất tốt cho việc hiển thị các phân phối xác suất, nhưng nó thường là một ý tưởng tồi, nếu người ta muốn sử dụng nếu để kiểm tra thống kê và / hoặc suy luận tham số. Chủ yếu bởi vì người ta ngay lập tức giới hạn độ chính xác bởi chiều rộng thùng. Một vấn đề phổ biến khác là khi biến không bị ràng buộc, tức là người ta phải đưa ra mức cắt thấp và cao.

Làm việc với các bản phân phối tích lũy trong tinh thần Kolmogorov-Smirnov tránh được nhiều vấn đề này. Cũng có nhiều phương pháp thống kê tốt có sẵn trong trường hợp này. (xem, ví dụ: https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test )

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.