Giới hạn niềm tin trên trong học máy

8

Tôi đã tìm ra công thức để đạt được giới hạn tin cậy cao hơn về vấn đề tên cướp k-armed:

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$

Trong đó là số lượng mẫu chúng ta có cho tên cướp cụ thể này và là tổng số lượng mẫu chúng ta có từ tất cả các tên cướp. Thuật toán tương tự cũng được sử dụng trong Tìm kiếm cây Monte Carlo để đạt được độ tin cậy cao hơn. $n_i$ $N_i$

Tôi hiểu rất rõ ràng sự tự tin bị ràng buộc là gì, nhưng điều tôi không hiểu là công thức này đến từ đâu. Tôi đã thử tìm kiếm trực tuyến ở một số nơi nhưng không thể tìm thấy lời giải thích rõ ràng về cách thức công thức này được bắt nguồn. Ai đó có thể vui lòng giải thích công thức này đến từ đâu? Hãy cho rằng tôi không có một nền tảng tuyệt vời trong thống kê.

— lập trình cờ vua
nguồn

Cá nhân tôi đã tìm thấy banditalgie.com/2016/09/18/the-upper-confidence-bound-alacticm để chứa một lời giải thích tốt. Nó bao gồm một số phép toán nặng, nhưng theo tôi thì có thể hiểu rõ ngay cả khi bỏ qua một số phương trình nặng hơn theo quan điểm của tôi. Chỉ cần đọc trực giác và một số phương trình đơn giản hơn

— Dennis Soemers

5

Những gì bạn có ở đó thường được gọi là thuật ngữ thăm dò. Độ tin cậy trên bị ràng buộc là ý nghĩa thực nghiệm cộng với thuật ngữ thăm dò này.

Chúng ta hãy xem xét từng thuật ngữ riêng biệt:

$c$ là hằng số cho phép người dùng thiết lập sự đánh đổi thăm dò / khai thác. Đối với các kết quả lý thuyết, nó thường được tối ưu hóa cho vấn đề hiện tại (ví dụ như kẻ cướp k-vũ trang với các linh mục Gaussian).

$\sqrt{1/n_i}$ tỷ lệ với độ lệch chuẩn sau sau mẫu hành động . Về cơ bản điều này nói rằng khi bạn kéo một cánh tay thường xuyên hơn, có ít thông tin hơn về cánh tay. $n_i$ $i$

$\sqrt{ln(N_i)}$ đảm bảo rằng bạn không ngừng khám phá quá sớm. Khi trở nên rất lớn, phương sai mẫu trở nên đủ nhỏ để chúng ta cần phải bù để đảm bảo rằng chúng ta không bao giờ hoàn toàn ngừng khám phá. Hầu hết các phép toán kỹ thuật là để chỉ ra rằng là mức bù vừa đủ (nhưng không quá nhiều). $N_i$ $\sqrt{ln(N_i)}$

Đối với một mô tả kỹ thuật hơn, bài báo của Auer et al. là một điểm khởi đầu tốt.

— kết hợp
nguồn

liên kết ở cuối không hoạt động với tôi.

— lập trình cờ vua

Nên làm việc ngay bây giờ, xin lỗi về điều đó

— combo

2

Nó xuất phát từ bất đẳng thức hoeffding, cung cấp một giới hạn trên cho khả năng mà tổng của giáp độc lập biến ngẫu nhiên lệch khỏi giá trị kỳ vọng của nó bởi hơn một số tiền nhất định. Xem https://en.wikipedia.org/wiki/Hoeffding%27s_inequality để biết thêm về bất bình đẳng của Hoeffding. Xem văn bản xung quanh phương trình (3) trong bài báo UCT ban đầu để biết một cuộc thảo luận chi tiết liên quan đến UCB1 trong cài đặt tên cướp http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.1296

— Chim ưng
nguồn

Giới hạn niềm tin trên trong học máy

clnNini−−−−−√clnNinic\sqrt{\frac{\text{ln} N_i}{n_i}}

$c \sqrt{\frac{ln N_{i}}{n_{i}}}$ $c\sqrt{\frac{\text{ln} N_i}{n_i}}$