Chức năng phần thưởng nào cho kết quả học tập tối ưu?


13

Hãy nghĩ về các tình huống sau:

  • Bạn đang dạy robot chơi bóng bàn
  • Bạn đang dạy một chương trình tính căn bậc hai
  • Bạn đang dạy toán cho một đứa trẻ ở trường

Những tình huống này (tức là học có giám sát) và nhiều tình huống khác có một điểm chung (trong số những thứ khác): người học nhận được phần thưởng dựa trên hiệu suất của nó.

Câu hỏi của tôi là, chức năng phần thưởng nên như thế nào? Có một câu trả lời "tốt nhất", hay nó phụ thuộc vào tình huống? Nếu nó phụ thuộc vào tình huống, làm thế nào để xác định chức năng phần thưởng nào sẽ chọn?

Ví dụ: lấy ba chức năng phần thưởng sau:

nhập mô tả hình ảnh ở đây

  • Chức năng Anói:
    • dưới một điểm nào đó, xấu hay tệ là như nhau: bạn chẳng nhận được gì
    • có một sự khác biệt rõ ràng giữa gần như tốt và hoàn hảo
  • Chức năng Bnói:
    • bạn nhận được phần thưởng tỷ lệ thuận với hiệu suất của bạn
  • Chức năng Cnói:
    • nếu hiệu suất của bạn kém, không sao, bạn đã cố gắng hết sức: bạn vẫn nhận được một số phần thưởng
    • không có nhiều khác biệt giữa hoàn hảo và gần như tốt

Theo trực giác, tôi nghĩ Asẽ làm cho robot rất tập trung và tìm hiểu mô hình chính xác, nhưng trở nên ngu ngốc khi xử lý các mô hình tương tự, trong khi Csẽ khiến nó dễ thích nghi hơn khi thay đổi với chi phí mất đi sự hoàn hảo.

Người ta cũng có thể nghĩ về các chức năng phức tạp hơn, chỉ để hiển thị nhưng ít:

nhập mô tả hình ảnh ở đây

Vì vậy, làm thế nào để biết chức năng nào để chọn? Là nó biết mà hành vi sẽ nổi lên từ (ít nhất) cơ bản A, BCchức năng?


Một câu hỏi phụ là điều này có khác về cơ bản đối với robot và trẻ em không?


Tôi nghi ngờ rằng một robot sẽ trở nên ngu ngốc bằng cách lặp đi lặp lại những điều tương tự hoặc tương tự, trừ khi bị điều khiển từ trường.
ott--

@ott, đó không phải là ý tôi. Ý tôi là với chức năng phần thưởng tương tự A, robot có thể trở nên cực kỳ giỏi trong nhiệm vụ chính xác, nhưng khủng khiếp ở những nhiệm vụ tương tự nhưng hơi khác. Đó chỉ là dự đoán của tôi.
Shahbaz

À, ok, tôi hiểu rồi. Bạn đang nghĩ về quần vợt, vd
ott--

Có lẽ lý thuyết đằng sau điều này có thể phức tạp, nhưng một câu trả lời cho biết "Tôi đã nghĩ các nhiệm vụ khác nhau đối với nhiều robot và chức năng thường Xmang lại cho tôi kết quả tốt nhất", ngay cả khi không hoàn toàn chính xác, sẽ đưa ra một quy tắc tuyệt vời.
Shahbaz

Câu trả lời:


5

Câu trả lời ngắn: hiệu ứng củng cố mạnh nhất đến từ việc cung cấp một phần thưởng có giá trị theo lịch trình không liên tục (ngẫu nhiên).

Phiên bản dài hơn: Một khía cạnh của câu hỏi của bạn là về điều hòa hoạt động , ít nhất là nó áp dụng cho việc dạy toán cho một sinh vật phức tạp. Áp dụng điều này vào học máy được gọi là học tăng cường .

Kinh tế học (theo câu trả lời của jwpat7 ) chỉ đề cập đến một phần câu chuyện về sự củng cố. Hàm tiện ích cho bạn biết phần thưởng nào có tác dụng củng cố mạnh nhất (tác động lớn nhất đến hành vi) trong một bối cảnh nhất định. Có phải là khen ngợi? sô cô la? cocaine? kích thích điện trực tiếp đến các khu vực nhất định của não? Chủ yếu là câu trả lời của tôi là về hiệu quả của bối cảnh, giả sử một tiện ích phần thưởng nhất định.

Đối với các sinh vật / hành vi phức tạp, lập lịch thưởng ít nhất cũng quan trọng như tiện ích thưởng:

  • "Lịch thưởng cố định trong khoảng thời gian cố định" là cách ít hiệu quả nhất để sửa đổi hành vi với số lượng phần thưởng nhất định (Tôi sẽ cho bạn 10 đô la mỗi tuần nếu bạn giữ phòng ngủ gọn gàng). Hãy suy nghĩ dole bludger.
  • Lịch thưởng tỷ lệ cố định (tôi sẽ cung cấp cho bạn 10 đô la cứ sau bảy ngày bạn có một phòng ngủ gọn gàng) hiệu quả hơn các khoảng thời gian cố định, nhưng chúng có một loại trần hiệu quả (đối tượng sẽ dọn phòng của họ bảy lần khi họ đói $ 10, nhưng không phải là khác). Nghĩ lính đánh thuê.
  • Cách có ảnh hưởng nhất để cung cấp phần thưởng nhất định với "lịch trình tăng cường khoảng thời gian thay đổi" (ví dụ: mỗi ngày bạn dọn dẹp phòng ngủ của bạn, bạn có 1/7 cơ hội nhận được $ 10). Hãy suy nghĩ máy poker.

Nếu bạn là người giám sát học tập với ngân sách phần thưởng cố định, đối với một tình huống học tập nhất định, sẽ có sự cân bằng tối ưu về quy mô phần thưởng (tiện ích) và tần suất. Đây có lẽ không phải là một phần thưởng rất nhỏ với tần suất rất cao, cũng không phải là một phần thưởng rất lớn được giao rất hiếm. Nó thậm chí có thể là phần thưởng kích thước ngẫu nhiên theo lịch ngẫu nhiên - tối ưu thường được xác định bằng thực nghiệm cho một tình huống cụ thể.

Cuối cùng, lịch trình "tối ưu" (tần suất ngẫu nhiên, số lượng ngẫu nhiên {p (phần thưởng), p (giá trị)}) có thể sẽ thay đổi ở các giai đoạn khác nhau trong quá trình học tập. Ví dụ, một học sinh mới có thể phải chịu hiệu ứng "ưu tiên" (hoan nghênh! Có một hạt thạch) nhanh chóng trở thành phần thưởng trong khoảng thời gian cố định nếu bạn lặp lại nó. Có thể có hiệu ứng "lần truy cập gần đây" nhận được nhiều giá trị gia cố hơn từ phần thưởng được giao trong lần thử nghiệm cuối cùng ("hoàn thành nốt cao"). Ở giữa, có thể có một "hiệu ứng đức tin" tích lũy khi mà người học trở nên có kinh nghiệm hơn, tối ưu có thể chuyển sang xác suất thấp hơn, tiện ích cao hơn theo thời gian. Một lần nữa, nhiều thứ để xác định theo kinh nghiệm trong tình huống của bạn.


Câu trả lời rất thú vị. Nó có rất nhiều ý nghĩa.
Shahbaz

Tôi đang đọc câu trả lời này một lần nữa, và một lần nữa tôi muốn nói câu trả lời này tuyệt vời như thế nào! Trong thực tế, hãy để tôi cung cấp cho bạn một số tiền thưởng!
Shahbaz

6

"Học tối ưu" là một thuật ngữ rất mơ hồ và nó hoàn toàn phụ thuộc vào vấn đề cụ thể mà bạn đang làm việc. Thuật ngữ bạn đang tìm kiếm là " quá mức ": nhập mô tả hình ảnh ở đây

(Đường màu xanh là lỗi trong việc dự đoán kết quả trên dữ liệu huấn luyện, đường màu tím chất lượng của mô hình và đường màu đỏ là lỗi của mô hình đã học được sử dụng "trong sản xuất")

Nói cách khác: khi nói đến việc điều chỉnh hành vi đã học của bạn thành tương tự, cách bạn thưởng cho hệ thống của bạn ít quan trọng hơn số lần bạn thưởng nó - bạn muốn giảm lỗi trong dữ liệu đào tạo, nhưng không giữ nó trong quá trình đào tạo miễn là nó mất khả năng làm việc trên các mô hình tương tự.

Một phương pháp để giải quyết vấn đề này là cắt giảm một nửa dữ liệu đào tạo của bạn: sử dụng một nửa để học và nửa còn lại để xác nhận việc đào tạo. Nó giúp bạn xác định khi bạn bắt đầu phù hợp quá mức.

Hàm thưởng phi tuyến tính

Hầu hết các thuật toán học có giám sát đều mong đợi rằng việc áp dụng hàm phần thưởng sẽ tạo ra đầu ra lồi. Nói cách khác, có cực tiểu cục bộ trong đường cong đó sẽ ngăn hệ thống của bạn hội tụ đến hành vi phù hợp. Video này cho thấy một chút toán học đằng sau các chức năng chi phí / phần thưởng .


3

Những vấn đề này được giải quyết, ở một mức độ nào đó, bằng cách nghiên cứu các chức năng tiện ích trong kinh tế. Một hàm tiện ích biểu thị các giá trị hiệu quả hoặc cảm nhận của một thứ theo nghĩa khác. (Mặc dù các đường cong hiển thị trong câu hỏi là các hàm phần thưởng và thể hiện mức độ thưởng sẽ được đấu thầu cho các mức hiệu suất khác nhau, các hàm tiện ích trông tương tự có thể biểu thị bao nhiêu kết quả hiệu suất từ ​​các mức thưởng khác nhau.)

Chức năng phần thưởng nào sẽ hoạt động tốt nhất phụ thuộc vào trạng thái cân bằng giữa người trả tiền và người thực hiện. Bài viết đường cong hợp đồng wikipedia minh họa với các hộp Edgeworth cách tìm phân bổ hiệu quả Pareto . Các tiện ích Von Neumann-Morgenstern lý phác họa các điều kiện để đảm bảo rằng một đại lý là VNM-hợp lý và có thể được mô tả như có một chức năng tiện ích. Các dự đoán hành vi của người Viking kết quả từ phần tiện ích HARA Phần của bài báo về rủi ro tuyệt đối của Hyperbolic trong wikipedia mô tả hậu quả hành vi của các chức năng tiện ích nhất định.

Tóm tắt: Những chủ đề này đã là chủ đề của số lượng lớn nghiên cứu về kinh tế và kinh tế vi mô. Thật không may, trích xuất một bản tóm tắt ngắn gọn và hữu ích để trả lời câu hỏi của bạn cũng có thể đòi hỏi một khối lượng công việc khổng lồ, hoặc sự chú ý của một người nào đó hơn là chuyên gia hơn tôi.


Điều này khá phức tạp, tôi không chắc là tôi có hiểu không. Nhưng bạn có chắc chức năng tiện ích của kinh tế học cũng áp dụng cho robot? Trong học tập có giám sát (của robot), người trả tiền thực sự không mất gì cả. Phần thưởng thường sẽ chỉ là một con số cho robot biết họ đã làm tốt nhiệm vụ như thế nào.
Shahbaz

1

Hàm phần thưởng tối ưu phụ thuộc vào mục tiêu học tập, tức là những gì sẽ được học. Đối với các vấn đề đơn giản, có thể tìm thấy biểu diễn dạng đóng cho hàm phần thưởng tối ưu. Trong thực tế đối với các vấn đề thực sự đơn giản, tôi tự tin là có thể mặc dù tôi biết không có phương pháp chính thức nào để làm như vậy (tôi nghi ngờ lý thuyết tiện ích sẽ giải quyết câu hỏi này). Đối với các vấn đề phức tạp hơn, tôi cho rằng không thể tìm ra giải pháp dạng đóng.

Thay vì tìm kiếm chức năng tối ưu, chúng tôi có thể tìm đến một chuyên gia để có chức năng khen thưởng tốt. Một cách tiếp cận để làm như vậy là một kỹ thuật gọi là Học tập tăng cường nghịch đảo (IRL). Nó hình thành một vấn đề học tập như một vấn đề học tập củng cố trong đó chức năng phần thưởng chưa được biết và mục tiêu của quá trình học tập. Bài học Học việc thông qua Học tập tăng cường nghịch đảo của Pieter AbbeelAndrew Ng là một nơi tốt để bắt đầu tìm hiểu về IRL.


0

Bất kỳ hình thức học tập có giám sát nào là tìm kiếm theo chỉ đạo trong không gian chính sách. Bạn cố gắng tìm chính sách - để thực hiện hành động nào - cung cấp kỳ vọng thưởng tối đa. Trong câu hỏi của bạn, bạn đưa ra phần thưởng là một chức năng của hiệu suất. Miễn là chức năng này là đơn điệu, bất kỳ phương pháp nào hội tụ cuối cùng sẽ mang lại cho bạn hiệu suất tối đa (quá phù hợp với thuật ngữ của bạn).

Phương pháp hội tụ nhanh như thế nào là một vấn đề khác, và cũng có thể phụ thuộc vào đường cong. Nhưng tôi nghĩ rằng điều này sẽ khác nhau từ phương pháp này đến phương pháp khác.

Một vấn đề hoàn toàn khác là đối với các kịch bản phức tạp hơn, hiệu năng không phải là vô hướng đơn giản và việc xác định nó có thể khá khó khăn. Chức năng phần thưởng cho việc giỏi toán là gì?


Phương pháp hội tụ nhanh như thế nào là một vấn đề khác, và cũng có thể phụ thuộc vào đường cong. , tất nhiên. Tôi đã cố gắng hiểu làm thế nào đường cong ảnh hưởng đến việc học (và không phải nếu nó xảy ra, bởi vì tôi đã biết rằng nó làm).
Shahbaz
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.