Sự khác biệt giữa tìm kiếm và học tập là gì?


9

Tôi đã xem qua một bài báo, Sự thật cay đắng , thông qua Kênh YouTube hai phút . Sutton giàu nói ...

Một điều nên học được từ bài học cay đắng là sức mạnh to lớn của các phương pháp mục đích chung, của các phương pháp tiếp tục mở rộng với tính toán gia tăng ngay cả khi tính toán có sẵn trở nên rất lớn. Hai phương pháp dường như mở rộng tùy ý theo cách này là tìm kiếmhọc tập .

Sự khác biệt giữa tìm kiếm và học tập ở đây là gì? Hiểu biết của tôi là học tập là một hình thức tìm kiếm - trong đó chúng tôi lặp đi lặp lại tìm kiếm một số biểu diễn dữ liệu để giảm thiểu chức năng mất trong bối cảnh học tập sâu.

Câu trả lời:


6

Trong bối cảnh của AI:

  1. Tìm kiếm đề cập đến Trình giải quyết vấn đề chung của Simon & Newell và đó là nhiều thuật toán hậu duệ (nhiều). Các thuật toán này có dạng:

    a. Thể hiện trạng thái hiện tại của một số phần của thế giới dưới dạng một đỉnh trong biểu đồ.

    b. Đại diện, được kết nối với trạng thái hiện tại theo các cạnh, tất cả các trạng thái của thế giới có thể đạt được từ trạng thái hiện tại bằng cách thay đổi thế giới bằng một hành động duy nhất và đại diện cho tất cả các trạng thái tiếp theo theo cách tương tự.

    c. Về mặt thuật toán tìm một chuỗi các hành động dẫn từ trạng thái hiện tại đến một số trạng thái mục tiêu mong muốn hơn, bằng cách đi bộ xung quanh trên biểu đồ này.

Một ví dụ về ứng dụng sử dụng tìm kiếm là Google Maps. Một cái khác là Google Chuyến bay.

  1. Học tập đề cập đến bất kỳ thuật toán nào tinh chỉnh niềm tin về thế giới thông qua việc tiếp xúc với trải nghiệm hoặc ví dụ về trải nghiệm của người khác. Các thuật toán học tập không có cha mẹ rõ ràng, vì chúng được phát triển riêng trong nhiều trường con hoặc ngành khác nhau. Một phân loại hợp lý là mô hình 5 bộ lạc . Một số thuật toán học tập thực sự sử dụng tìm kiếm trong chính họ để tìm ra cách thay đổi niềm tin của họ để đáp ứng với trải nghiệm mới!

    Một ví dụ về thuật toán học được sử dụng ngày nay là Q-learning , là một phần của họ thuật toán học tăng cường nói chung . Q-learning hoạt động như thế này:

    a. Chương trình học tập (thường được gọi là tác nhân ) được đưa ra một đại diện cho tình trạng hiện tại của thế giới và một danh sách các hành động mà nó có thể chọn để thực hiện.

    b. Nếu tác nhân chưa từng thấy trạng thái này của thế giới trước đó, nó sẽ gán một số ngẫu nhiên cho phần thưởng mà họ mong đợi nhận được khi thực hiện mỗi hành động. Nó lưu trữ số này như , đoán nó ở chất lượng thực hiện hành động trong tiểu bang .Q(s,a)as

    c. Tác nhân nhìn vào cho mỗi hành động mà nó có thể thực hiện. Nó chọn hành động tốt nhất với một số xác suất và hành động ngẫu nhiên.Q(s,a)ϵ

    d. Hành động của tác nhân khiến thế giới thay đổi và có thể dẫn đến việc tác nhân nhận được phần thưởng từ môi trường. Người đại diện ghi chú xem liệu nó có được phần thưởng không (và phần thưởng là bao nhiêu), và trạng thái mới của thế giới là như thế nào. Sau đó, nó điều chỉnh niềm tin của mình về chất lượng thực hiện hành động mà nó đã thực hiện ở trạng thái trước đây, để niềm tin của họ về chất lượng của hành động đó gần với thực tế của phần thưởng và chất lượng của nó đã kết thúc.

    e. Các đại lý lặp lại các bước bd mãi mãi. Theo thời gian, niềm tin của nó về chất lượng của các cặp trạng thái / hành động khác nhau sẽ hội tụ để phù hợp với thực tế ngày càng chặt chẽ hơn.

Một ví dụ về một ứng dụng sử dụng học tập là các khuyến nghị của AI.SE, được tạo bởi một chương trình có khả năng phân tích mối quan hệ giữa các tổ hợp từ khác nhau trong các cặp bài đăng và khả năng ai đó sẽ nhấp vào chúng. Mỗi khi ai đó nhấp vào chúng, nó sẽ học được điều gì đó về việc liệt kê một bài đăng có liên quan hay không là một ý tưởng tốt hay không. Nguồn cấp dữ liệu của Facebook là một ví dụ hàng ngày.


0

Một cách để nghĩ về sự khác biệt giữa tìm kiếm và học tập là tìm kiếm thường đòi hỏi một khóa tìm kiếm và thuật toán tìm kiếm thông qua cấu trúc tìm kiếm sự phù hợp giữa khóa và một mục đã tồn tại. Trong khi đó học tập là việc tạo ra cấu trúc ở nơi đầu tiên. Nhưng tìm kiếm và học tập có liên quan ở chỗ khi nhận được đầu vào (giả sử từ một hoặc nhiều cảm biến), cấu trúc ban đầu được tìm kiếm để xem liệu đầu vào đã tồn tại chưa, nhưng nếu không thì đầu vào hiện tại (khi đáp ứng một số điều kiện nhất định) được thêm vào cấu trúc và việc học theo sau thất bại của tìm kiếm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.