Hiệu quả mẫu là gì và làm thế nào để lấy mẫu quan trọng để đạt được nó?


Câu trả lời:


14

100

Trong trường hợp học tập off-chính sách, chứ không phải tất cả các mẫu có ích ở chỗ chúng không phải là một phần của sự phân bố rằng chúng ta đang quan tâm. Lấy mẫu Tầm quan trọnglà một kỹ thuật để lọc các mẫu này. Công dụng ban đầu của nó là để hiểu một phân phối trong khi chỉ có thể lấy mẫu từ một phân phối khác nhưng có liên quan. Trong RL, điều này thường xuất hiện khi cố gắng học chính sách ngoài luồng. Cụ thể, các mẫu của bạn được tạo bởi một số chính sách hành vi nhưng bạn muốn tìm hiểu chính sách mục tiêu. Do đó, người ta cần đo mức độ quan trọng / tương tự của các mẫu được tạo ra đối với các mẫu mà chính sách mục tiêu có thể đã thực hiện. Do đó, một người đang lấy mẫu từ một phân phối có trọng số ủng hộ các mẫu "quan trọng" này. Tuy nhiên, có nhiều phương pháp để mô tả những gì quan trọng và hiệu quả của chúng có thể khác nhau tùy thuộc vào ứng dụng.

Cách tiếp cận phổ biến nhất cho kiểu lấy mẫu quan trọng ngoài chính sách này là tìm tỷ lệ về khả năng mẫu được tạo bởi chính sách mục tiêu. Bài viết về mối liên hệ giữa Lấy mẫu Tầm quan trọng và Gradient Chính sách Tỷ lệ Khả năng (2010) của Tang và Abbeel bao gồm chủ đề này.


2
Cảm ơn một lần nữa. Câu hỏi cơ bản: ..finding a ratio of how likely a sample is to be generated by the target policyLàm thế nào để chúng ta quyết định điều này, cho rằng chúng ta chỉ biết chính sách hành vi? Không phải là chính sách mục tiêu mà chúng ta phải tìm?
Gokul NC

1
Chúng ta có thể có được ước tính về điều này một cách dễ dàng bằng cách tìm tỷ lệ của chính sách mục tiêu, pi, thực hiện hành động đó trong chính sách hành vi, mu. Do đó tỷ lệ là P = pi (s, a) / mu (s, a) trong đó a và s là hành động được chọn bởi mu và trạng thái, tương ứng.
Jaden Tra Mand

1
Câu hỏi của tôi là, chúng ta lấy pi (s, a) từ đâu, trong khi chúng ta chỉ có mu (s, a)? Đó là, chúng ta lấy chính sách mục tiêu từ đâu, trong khi đó là mục tiêu của chúng ta để tìm ra nó?
Gokul NC

1
Chính sách mục tiêu của bạn được khởi tạo thành ngẫu nhiên, đó chỉ là vấn đề cập nhật nó.
Jaden Tra Mand

5

Hiệu quả mẫu biểu thị lượng kinh nghiệm mà một tác nhân / thuật toán cần tạo ra trong một môi trường (ví dụ: số lượng hành động cần thực hiện và số trạng thái kết quả + phần thưởng mà nó quan sát được) trong quá trình đào tạo để đạt được mức hiệu suất nhất định. Theo trực giác, bạn có thể nói một thuật toán là mẫu hiệu quả nếu nó có thể sử dụng tốt mọi kinh nghiệm đơn lẻ mà nó xảy ra để tạo ra và nhanh chóng cải thiện chính sách của nó. Một thuật toán có hiệu quả mẫu kém nếu nó không học được bất cứ điều gì hữu ích từ nhiều mẫu kinh nghiệm và không cải thiện nhanh chóng.

Giải thích về lấy mẫu quan trọng trong câu trả lời của Jaden dường như là chính xác.

Trong bài viết trong câu hỏi của bạn, lấy mẫu quan trọng là một trong những thành phần cho phép kết hợp chính xác 1) học hỏi từ các quỹ đạo nhiều bước và 2) trải nghiệm bộ đệm phát lại. Hai điều đó không dễ kết hợp trước đây (vì trả về nhiều bước mà không lấy mẫu quan trọng chỉ đúng trong học tập theo chính sách và các mẫu cũ trong bộ đệm phát lại được tạo bởi một chính sách cũ, điều đó có nghĩa là học từ chúng là chính sách không chính sách ). Cả hai điều đó đều cải thiện hiệu quả mẫu riêng lẻ, điều đó ngụ ý rằng nó cũng có lợi cho hiệu quả mẫu nếu chúng vẫn có thể được kết hợp bằng cách nào đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.