TL; DR.
Việc tỷ lệ chiết khấu bị giới hạn nhỏ hơn 1 là một mẹo toán học để tạo ra một tổng hữu hạn vô hạn. Điều này giúp chứng minh sự hội tụ của các thuật toán nhất định.
Trong thực tế, yếu tố giảm giá có thể được sử dụng để mô hình thực tế rằng người ra quyết định không chắc chắn về việc nếu trong quyết định tiếp theo, thế giới (ví dụ, môi trường / trò chơi / quá trình ) sẽ kết thúc.
Ví dụ:
Nếu người ra quyết định là robot, yếu tố giảm giá có thể là xác suất robot bị tắt trong lần tiếp theo ngay lập tức (thế giới kết thúc theo thuật ngữ trước đó). Đó là lý do tại sao robot bị cận thị và không tối ưu hóa phần thưởng tổng mà là
phần thưởng tổng giảm giá .
Hệ số chiết khấu nhỏ hơn 1 (Chi tiết)
Để trả lời chính xác hơn, tại sao tỷ lệ chiết khấu phải nhỏ hơn một lần đầu tiên tôi sẽ giới thiệu Quy trình quyết định Markov (MDP).
Kỹ thuật học tăng cường có thể được sử dụng để giải quyết MDP. MDP cung cấp một khung toán học để mô hình hóa các tình huống ra quyết định trong đó các kết quả là một phần ngẫu nhiên và một phần dưới sự kiểm soát của người ra quyết định. MDP được xác định thông qua không gian trạng thái , không gian hành động , chức năng xác suất chuyển tiếp giữa các trạng thái (được điều chỉnh theo hành động của người ra quyết định) và chức năng khen thưởng.SA
Trong cài đặt cơ bản của nó, người ra quyết định thực hiện và hành động, và nhận phần thưởng từ môi trường, và môi trường thay đổi trạng thái của nó. Sau đó, người ra quyết định cảm nhận trạng thái của môi trường, thực hiện một hành động, nhận phần thưởng, v.v. Các chuyển đổi trạng thái là xác suất và chỉ phụ thuộc vào trạng thái thực tế và hành động được thực hiện bởi người ra quyết định. Phần thưởng mà người ra quyết định nhận được phụ thuộc vào hành động được thực hiện và cả trạng thái ban đầu và trạng thái mới của môi trường.
Phần thưởng có được khi thực hiện hành động ở trạng thái và môi trường / hệ thống thay đổi thành trạng thái sau khi người ra quyết định thực hiện hành động . Người ra quyết định tuân theo chính sách, , rằng với mỗi trạng thái sẽ thực hiện hành động . Vì vậy, chính sách này là những gì cho người ra quyết định nên thực hiện hành động nào ở mỗi tiểu bang. Chính sách cũng có thể được chọn ngẫu nhiên nhưng hiện tại nó không quan trọng.Rai(sj,sk)aisjskaiπ π(⋅):S→Asj∈Sai∈Aπ
Mục tiêu là tìm một chính sách sao choπ
maxπ:S(n)→ailimT→∞E{∑n=1TβnRxi(S(n),S(n+1))}(1),
trong đó là hệ số chiết khấu và .ββ<1
Lưu ý rằng vấn đề tối ưu hóa ở trên, có khoảng thời gian vô hạn ( ) và mục tiêu là tối đa hóa phần thưởng tổng (phần thưởng được nhân với ). Điều này thường được gọi là một vấn đề MDP với tiêu chí thưởng giảm giá vô hạn .T→∞discountedRβn
Vấn đề được gọi là giảm giá vì . Nếu đó không phải là vấn đề giảm giá thì tổng sẽ không hội tụ. Tất cả các chính sách đạt được trung bình một phần thưởng tích cực tại mỗi thời điểm ngay lập tức sẽ tổng hợp đến vô cùng. Đây sẽ là một tiêu chí tổng thưởng chân trời vô hạn , và không phải là một tiêu chí tối ưu hóa tốt.β<1β=1
Dưới đây là một ví dụ đồ chơi để cho bạn thấy ý tôi là:
Giả sử rằng chỉ có hai hành động có thể và hàm phần thưởng bằng nếu và nếu (phần thưởng không phụ thuộc vào trạng thái).a=0,1R1a=10a=0
Rõ ràng chính sách nhận được nhiều phần thưởng hơn là luôn luôn hành động và không bao giờ hành động . Tôi sẽ gọi chính sách này . Tôi sẽ so sánh với một chính sách khác có hành động với xác suất nhỏ và hành động nếu không.a=1a=0π∗π∗π′a=1α<<1a=0
Trong chân trời vô hạn chiết khấu phương trình tiêu chí (1) trở thành (tổng của một chuỗi hình học) cho chính sách trong khi đối với chính sách phương trình (1) trở thành . Vì , chúng tôi nói rằng là một chính sách tốt hơn . Trên thực tế là chính sách tối ưu.11−βπ∗π′α1−β11−β>α1−βπ∗π′π∗
Trong các tiêu chí phần thưởng tổng chân trời vô hạn ( ) (1) không hội tụ cho bất kỳ chính sách nào (nó tính tổng đến vô cùng). Vì vậy, trong khi chính sách đạt được phần thưởng cao hơn cả hai chính sách đều bằng nhau theo tiêu chí này. Đó là một lý do tại sao các tiêu chí tổng thưởng chân trời vô hạn không hữu ích.β=1ππ′
Như tôi đã đề cập trước đây, làm cho thủ thuật làm cho tổng trong phương trình (1) hội tụ.β<1
Các tiêu chí tối ưu khác
Có các tiêu chí tối ưu khác không áp đặt rằng :β<1
Trường hợp tiêu chí chân trời hữu hạn , mục tiêu là tối đa hóa phần thưởng chiết khấu cho đến khi chân trời thời gianT
maxπ:S(n)→aiE{∑n=1TβnRxi(S(n),S(n+1))},
cho và hữu hạn.β≤1T
Trong tiêu chí phần thưởng trung bình của đường chân trời vô hạn , mục tiêu là
maxπ:S(n)→ailimT→∞E{∑n=1T1TRxi(S(n),S(n+1))},
Lưu ý cuối
Tùy thuộc vào tiêu chí tối ưu, người ta sẽ sử dụng một thuật toán khác nhau để tìm ra chính sách tối ưu. Trong các trường hợp, các chính sách tối ưu của các vấn đề chân trời hữu hạn sẽ phụ thuộc vào cả trạng thái và thời gian thực tế tức thời. Hầu hết các thuật toán Học tăng cường (như SARSA hoặc Q-learning) chỉ hội tụ chính sách tối ưu cho các tiêu chí chân trời vô hạn phần thưởng được giảm giá (điều tương tự xảy ra đối với các thuật toán lập trình động). Đối với tiêu chí phần thưởng trung bình, không có thuật toán nào được chứng minh là hội tụ chính sách tối ưu, tuy nhiên người ta có thể sử dụng R-learning có hiệu suất tốt mặc dù không hội tụ lý thuyết tốt.