Hiểu vai trò của yếu tố giảm giá trong học tập củng cố


43

Tôi đang dạy bản thân về việc học tập củng cố và cố gắng hiểu khái niệm về phần thưởng giảm giá. Vì vậy, phần thưởng là cần thiết để cho hệ thống biết cặp đôi hành động nào là tốt và cái nào là xấu. Nhưng điều tôi không hiểu là tại sao phần thưởng giảm giá là cần thiết. Tại sao nó lại quan trọng cho dù một trạng thái tốt được đạt được sớm hơn là sau này?

Tôi hiểu rằng điều này có liên quan trong một số trường hợp cụ thể. Ví dụ, nếu bạn đang sử dụng học tập củng cố để giao dịch trên thị trường chứng khoán, sẽ có lợi hơn khi kiếm lợi nhuận sớm hơn là sau này. Điều này là bởi vì có số tiền đó bây giờ cho phép bạn làm mọi thứ với số tiền đó ngay bây giờ, điều này mong muốn hơn là làm những việc với số tiền đó sau này.

Nhưng trong hầu hết các trường hợp, tôi không thấy lý do tại sao việc giảm giá lại hữu ích. Ví dụ: giả sử bạn muốn robot học cách điều hướng xung quanh phòng để đến phía bên kia, nơi có hình phạt nếu va chạm với chướng ngại vật. Nếu không có yếu tố giảm giá, thì nó sẽ học cách tiếp cận phía bên kia một cách hoàn hảo, mà không va chạm với bất kỳ trở ngại nào. Có thể mất nhiều thời gian để đến đó, nhưng cuối cùng nó sẽ đến đó.

Nhưng nếu chúng ta giảm giá cho phần thưởng, thì robot sẽ được khuyến khích nhanh chóng đến phía bên kia của căn phòng, ngay cả khi nó phải va chạm với các vật thể trên đường đi. Đây rõ ràng không phải là một kết quả mong muốn. Chắc chắn, bạn muốn robot nhanh chóng sang phía bên kia, nhưng không nếu điều này có nghĩa là nó phải va chạm với các vật thể trên đường đi.

Vì vậy, trực giác của tôi là bất kỳ hình thức giảm giá nào, sẽ thực sự dẫn đến một giải pháp tối ưu phụ. Và sự lựa chọn của yếu tố giảm giá thường có vẻ tùy ý - nhiều phương pháp tôi đã thấy chỉ đơn giản là đặt nó thành 0,9. Điều này dường như rất ngây thơ đối với tôi và dường như đưa ra một sự đánh đổi tùy tiện giữa giải pháp tối ưu và giải pháp nhanh nhất, trong khi thực tế, sự đánh đổi này rất quan trọng.

Xin ai đó có thể giúp tôi hiểu tất cả điều này? Cảm ơn bạn :)

Câu trả lời:


36

TL; DR.

Việc tỷ lệ chiết khấu bị giới hạn nhỏ hơn 1 là một mẹo toán học để tạo ra một tổng hữu hạn vô hạn. Điều này giúp chứng minh sự hội tụ của các thuật toán nhất định.

Trong thực tế, yếu tố giảm giá có thể được sử dụng để mô hình thực tế rằng người ra quyết định không chắc chắn về việc nếu trong quyết định tiếp theo, thế giới (ví dụ, môi trường / trò chơi / quá trình ) sẽ kết thúc.

Ví dụ:

Nếu người ra quyết định là robot, yếu tố giảm giá có thể là xác suất robot bị tắt trong lần tiếp theo ngay lập tức (thế giới kết thúc theo thuật ngữ trước đó). Đó là lý do tại sao robot bị cận thị và không tối ưu hóa phần thưởng tổng mà là phần thưởng tổng giảm giá .

Hệ số chiết khấu nhỏ hơn 1 (Chi tiết)

Để trả lời chính xác hơn, tại sao tỷ lệ chiết khấu phải nhỏ hơn một lần đầu tiên tôi sẽ giới thiệu Quy trình quyết định Markov (MDP).

Kỹ thuật học tăng cường có thể được sử dụng để giải quyết MDP. MDP cung cấp một khung toán học để mô hình hóa các tình huống ra quyết định trong đó các kết quả là một phần ngẫu nhiên và một phần dưới sự kiểm soát của người ra quyết định. MDP được xác định thông qua không gian trạng thái , không gian hành động , chức năng xác suất chuyển tiếp giữa các trạng thái (được điều chỉnh theo hành động của người ra quyết định) và chức năng khen thưởng.SA

Trong cài đặt cơ bản của nó, người ra quyết định thực hiện và hành động, và nhận phần thưởng từ môi trường, và môi trường thay đổi trạng thái của nó. Sau đó, người ra quyết định cảm nhận trạng thái của môi trường, thực hiện một hành động, nhận phần thưởng, v.v. Các chuyển đổi trạng thái là xác suất và chỉ phụ thuộc vào trạng thái thực tế và hành động được thực hiện bởi người ra quyết định. Phần thưởng mà người ra quyết định nhận được phụ thuộc vào hành động được thực hiện và cả trạng thái ban đầu và trạng thái mới của môi trường.

Phần thưởng có được khi thực hiện hành động ở trạng thái và môi trường / hệ thống thay đổi thành trạng thái sau khi người ra quyết định thực hiện hành động . Người ra quyết định tuân theo chính sách, , rằng với mỗi trạng thái sẽ thực hiện hành động . Vì vậy, chính sách này là những gì cho người ra quyết định nên thực hiện hành động nào ở mỗi tiểu bang. Chính sách cũng có thể được chọn ngẫu nhiên nhưng hiện tại nó không quan trọng.Rai(sj,sk)aisjskaiπ π():SAsjSaiAπ

Mục tiêu là tìm một chính sách sao choπ

maxπ:S(n)ailimTE{n=1TβnRxi(S(n),S(n+1))}(1),
trong đó là hệ số chiết khấu và .ββ<1

Lưu ý rằng vấn đề tối ưu hóa ở trên, có khoảng thời gian vô hạn ( ) và mục tiêu là tối đa hóa phần thưởng tổng (phần thưởng được nhân với ). Điều này thường được gọi là một vấn đề MDP với tiêu chí thưởng giảm giá vô hạn .TdiscountedRβn

Vấn đề được gọi là giảm giá vì . Nếu đó không phải là vấn đề giảm giá thì tổng sẽ không hội tụ. Tất cả các chính sách đạt được trung bình một phần thưởng tích cực tại mỗi thời điểm ngay lập tức sẽ tổng hợp đến vô cùng. Đây sẽ là một tiêu chí tổng thưởng chân trời vô hạn , và không phải là một tiêu chí tối ưu hóa tốt.β<1β=1

Dưới đây là một ví dụ đồ chơi để cho bạn thấy ý tôi là:

Giả sử rằng chỉ có hai hành động có thể và hàm phần thưởng bằng nếu và nếu (phần thưởng không phụ thuộc vào trạng thái).a=0,1R1a=10a=0

Rõ ràng chính sách nhận được nhiều phần thưởng hơn là luôn luôn hành động và không bao giờ hành động . Tôi sẽ gọi chính sách này . Tôi sẽ so sánh với một chính sách khác có hành động với xác suất nhỏ và hành động nếu không.a=1a=0πππa=1α<<1a=0

Trong chân trời vô hạn chiết khấu phương trình tiêu chí (1) trở thành (tổng của một chuỗi hình học) cho chính sách trong khi đối với chính sách phương trình (1) trở thành . Vì , chúng tôi nói rằng là một chính sách tốt hơn . Trên thực tế là chính sách tối ưu.11βππα1β11β>α1βπππ

Trong các tiêu chí phần thưởng tổng chân trời vô hạn ( ) (1) không hội tụ cho bất kỳ chính sách nào (nó tính tổng đến vô cùng). Vì vậy, trong khi chính sách đạt được phần thưởng cao hơn cả hai chính sách đều bằng nhau theo tiêu chí này. Đó là một lý do tại sao các tiêu chí tổng thưởng chân trời vô hạn không hữu ích.β=1ππ

Như tôi đã đề cập trước đây, làm cho thủ thuật làm cho tổng trong phương trình (1) hội tụ.β<1

Các tiêu chí tối ưu khác

Có các tiêu chí tối ưu khác không áp đặt rằng :β<1

Trường hợp tiêu chí chân trời hữu hạn , mục tiêu là tối đa hóa phần thưởng chiết khấu cho đến khi chân trời thời gianT

maxπ:S(n)aiE{n=1TβnRxi(S(n),S(n+1))},

cho và hữu hạn.β1T

Trong tiêu chí phần thưởng trung bình của đường chân trời vô hạn , mục tiêu là

maxπ:S(n)ailimTE{n=1T1TRxi(S(n),S(n+1))},

Lưu ý cuối

Tùy thuộc vào tiêu chí tối ưu, người ta sẽ sử dụng một thuật toán khác nhau để tìm ra chính sách tối ưu. Trong các trường hợp, các chính sách tối ưu của các vấn đề chân trời hữu hạn sẽ phụ thuộc vào cả trạng thái và thời gian thực tế tức thời. Hầu hết các thuật toán Học tăng cường (như SARSA hoặc Q-learning) chỉ hội tụ chính sách tối ưu cho các tiêu chí chân trời vô hạn phần thưởng được giảm giá (điều tương tự xảy ra đối với các thuật toán lập trình động). Đối với tiêu chí phần thưởng trung bình, không có thuật toán nào được chứng minh là hội tụ chính sách tối ưu, tuy nhiên người ta có thể sử dụng R-learning có hiệu suất tốt mặc dù không hội tụ lý thuyết tốt.


1
Bất kỳ ý tưởng về những gì tôi nên đọc để hiểu tất cả các tiếng Trung trong câu trả lời của bạn?
thibaut noah

@thibautnoah Đây là IMHO tài liệu tham khảo Học tập củng cố tốt nhất: Giới thiệu từ Sutton và Barto. [ people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf]
PolBM

cảm ơn bạn, có lẽ sẽ cần một cuốn sách khác về toán học nhưng tôi đoán đó là một sự khởi đầu;)
thibaut noah

6

Bạn đúng rằng yếu tố giảm giá (được gọi là - lưu ý rằng điều này khác với từ TD- ) hoạt động như một "sự cấp bách của cuộc sống" và do đó là một phần của vấn đề - giống như nó đang xảy ra cuộc sống của con người: Một số người sống như thể họ sẽ sống mãi mãi; một số người sống như thể họ sẽ chết vào ngày mai.γλλ


2

TL; DR: Các yếu tố giảm giá có liên quan đến chân trời thời gian. Các chân trời thời gian dài hơn có nhiều phương sai hơn vì chúng bao gồm nhiều thông tin không liên quan hơn, trong khi các chân trời thời gian ngắn chỉ thiên về những lợi ích ngắn hạn.

Yếu tố giảm giá về cơ bản quyết định mức độ các tác nhân học tập củng cố quan tâm đến phần thưởng trong tương lai xa so với những người trong tương lai trước mắt. Nếu , tác nhân sẽ bị cận thị hoàn toàn và chỉ tìm hiểu về các hành động tạo ra phần thưởng ngay lập tức. Nếu , đại lý sẽ đánh giá từng hành động của mình dựa trên tổng số tất cả các phần thưởng trong tương lai của nó.γ=0γ=1

Vậy tại sao bạn luôn muốn làm cho càng cao càng tốt? Chà, hầu hết các hành động không có hậu quả lâu dài. Ví dụ, giả sử rằng vào ngày đầu tiên hàng tháng, bạn quyết định tự thưởng cho mình một ly sinh tố, và bạn phải quyết định xem bạn sẽ có một ly sinh tố việt quất hay sinh tố dâu tây. Là một người học củng cố tốt, bạn đánh giá chất lượng của quyết định của bạn bằng cách phần thưởng tiếp theo của bạn lớn như thế nào. Nếu khoảng thời gian của bạn rất ngắn, bạn sẽ chỉ tính đến phần thưởng ngay lập tức, như món sinh tố của bạn ngon như thế nào. Với một khoảng thời gian dài hơn, như một vài giờ, bạn cũng có thể tham gia vào những việc như liệu bạn có bị đau bụng hay không. Nhưng nếu chân trời thời gian của bạn kéo dài trong cả tháng, thì mọi điều khiến bạn cảm thấy tốt hay xấu cho cả thángγsẽ quyết định đến việc bạn có quyết định sinh tố đúng hay không. Bạn sẽ được bao gồm nhiều thông tin không liên quan, và do đó phán đoán của bạn sẽ có sự khác biệt lớn và sẽ rất khó để học.

Chọn một giá trị cụ thể của tương đương với chọn một chân trời thời gian. Nó giúp viết lại phần thưởng chiết khấu của một đại lý là nơi tôi xác định và . Giá trị hiển thị rõ ràng chân trời thời gian liên quan đến hệ số chiết khấu; tương ứng với và bất kỳ phần thưởng nào nhiều hơnγG

Gt=Rt+γRt+1+γ2Rt+2+=k=0γkRt+k=Δt=0eΔt/τRt+Δt
γ=e1/τkΔtτγ=1τ=τbước thời gian trong tương lai bị triệt tiêu theo cấp số nhân. Nói chung, bạn nên chọn một yếu tố giảm giá sao cho chân trời thời gian chứa tất cả các phần thưởng có liên quan cho một hành động cụ thể, nhưng không còn nữa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.