Tôi lập trình và làm phát triển dựa trên thử nghiệm. Sau khi tôi thực hiện thay đổi mã, tôi chạy thử nghiệm. Đôi khi họ thành công và đôi khi họ thất bại. Trước khi tôi chạy thử nghiệm, tôi ghi lại một số từ 0,01 đến 0,99 để tôi tin rằng thử nghiệm sẽ thành công.
Tôi muốn biết liệu tôi có cải thiện trong việc dự đoán liệu thử nghiệm của tôi sẽ thành công hay thất bại. Sẽ thật tuyệt nếu tôi có thể theo dõi liệu tôi có tốt hơn trong việc dự đoán liệu thử nghiệm sẽ thành công vào thứ Hai hay thứ Sáu hay không. Nếu khả năng dự đoán thành công thử nghiệm của tôi tương quan với các số liệu khác mà tôi theo dõi, tôi muốn biết.
Điều đó để lại cho tôi nhiệm vụ chọn đúng số liệu. Trong Superforcasting Philip Tetlock đề xuất sử dụng điểm Brier để đo mức độ hiệu chỉnh của các chuyên gia. Một số liệu khác đã được đề xuất trong tài liệu là quy tắc chấm điểm Logarit . Ngoài ra còn có các ứng cử viên khác có thể.
Làm cách nào để quyết định sử dụng số liệu nào? Có một lập luận cho việc ủng hộ một quy tắc chấm điểm so với các quy tắc khác?