Tôi đã tìm ra công thức để đạt được giới hạn tin cậy cao hơn về vấn đề tên cướp k-armed:
Trong đó là số lượng mẫu chúng ta có cho tên cướp cụ thể này và là tổng số lượng mẫu chúng ta có từ tất cả các tên cướp. Thuật toán tương tự cũng được sử dụng trong Tìm kiếm cây Monte Carlo để đạt được độ tin cậy cao hơn.
Tôi hiểu rất rõ ràng sự tự tin bị ràng buộc là gì, nhưng điều tôi không hiểu là công thức này đến từ đâu. Tôi đã thử tìm kiếm trực tuyến ở một số nơi nhưng không thể tìm thấy lời giải thích rõ ràng về cách thức công thức này được bắt nguồn. Ai đó có thể vui lòng giải thích công thức này đến từ đâu? Hãy cho rằng tôi không có một nền tảng tuyệt vời trong thống kê.