Học tập có giám sát, học tập không giám sát và học tập củng cố: Cơ bản về quy trình làm việc


30

Học có giám sát

  • 1) Một con người xây dựng một phân loại dựa trên đầu vàođầu ra dữ liệu
  • 2) Trình phân loại đó được đào tạo với một tập dữ liệu
  • 3) Trình phân loại đó được kiểm tra với bộ dữ liệu thử nghiệm
  • 4) Triển khai nếu đầu ra đạt yêu cầu

Để được sử dụng khi "Tôi biết cách phân loại dữ liệu này, tôi chỉ cần bạn (trình phân loại) để sắp xếp nó."

Điểm của phương pháp: Để lớp nhãn hoặc tạo số thực

Học tập không giám sát

  • 1) Một con người xây dựng một thuật toán dựa trên dữ liệu đầu vào
  • 2) Thuật toán đó được kiểm tra với một bộ dữ liệu thử nghiệm (trong đó thuật toán tạo trình phân loại)
  • 3) Triển khai nếu phân loại đạt yêu cầu

Để được sử dụng khi "Tôi không biết làm thế nào để phân loại dữ liệu này, bạn có thể (thuật toán) tạo một bộ phân loại cho tôi không?"

Điểm của phương pháp: Để lớp nhãn hoặc dự đoán (PDF)

Học tăng cường

  • 1) Một con người xây dựng một thuật toán dựa trên dữ liệu đầu vào
  • 2) Thuật toán đó thể hiện trạng thái phụ thuộc vào dữ liệu đầu vào trong đó người dùng thưởng hoặc trừng phạt thuật toán thông qua hành động mà thuật toán thực hiện, điều này tiếp tục theo thời gian
  • 3) Thuật toán đó học được từ phần thưởng / hình phạt và tự cập nhật, điều này tiếp tục
  • 4) Nó luôn được sản xuất, nó cần học dữ liệu thực để có thể trình bày các hành động từ các trạng thái

Được sử dụng khi "Tôi không biết cách phân loại dữ liệu này, bạn có thể phân loại dữ liệu này không và tôi sẽ cho bạn phần thưởng nếu nó đúng hoặc tôi sẽ trừng phạt bạn nếu không."

Đây có phải là loại dòng chảy của những thông lệ, tôi nghe rất nhiều về những gì họ làm, nhưng thực tếgương mẫu thông tin là appallingly chút!


Thực sự thích cách bạn trình bày câu hỏi của bạn. Tôi thấy câu trả lời này hữu ích: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Câu trả lời:


3

Đây là một giới thiệu nhỏ gọn rất đẹp cho những ý tưởng cơ bản!

Học tăng cường

Tôi nghĩ rằng mô tả trường hợp sử dụng của bạn về học tập củng cố là không chính xác. Thuật ngữ phân loại là không phù hợp. Một mô tả tốt hơn sẽ là:

Tôi không biết làm thế nào để hành động trong môi trường này , bạn có thể tìm thấy một hành vi tốt và trong khi đó tôi sẽ cung cấp cho bạn thông tin phản hồi .

Nói cách khác, mục tiêu là để kiểm soát một cái gì đó tốt hơn là phân loại một cái gì đó tốt.

Đầu vào

  • Các môi trường được định nghĩa bởi
    • tất cả các trạng thái có thể
    • hành động có thể ở các tiểu bang
  • Hàm phần thưởng phụ thuộc vào trạng thái và / hoặc hành động

Thuật toán

  • Các đại lý
    • đang ở trong một trạng thái
    • thực hiện một hành động để chuyển sang trạng thái khác
    • nhận được phần thưởng cho hành động trong tiểu bang

Đầu ra

  • Đại lý muốn tìm một chính sách tối ưu nhằm tối đa hóa phần thưởng

2

Tuyên bố miễn trừ trách nhiệm: Tôi không phải là chuyên gia và tôi thậm chí chưa bao giờ làm điều gì đó với việc học tăng cường (chưa), vì vậy mọi phản hồi sẽ được hoan nghênh ...

Dưới đây là một câu trả lời thêm một số ghi chú toán học nhỏ vào danh sách của bạn và một số suy nghĩ khác nhau về thời điểm sử dụng cái gì. Tôi hy vọng việc liệt kê là đủ tự giải thích:

Giám sát

  1. D= ={(x0,y0),(x1,y1),Giáo dục,(xn,yn)}
  2. gL(ytôi,g(xtôi))0tôi<tôi
  3. Ltôitôin

Chúng tôi có thể đưa ra ví dụ, nhưng chúng tôi không thể đưa ra thuật toán để chuyển từ đầu vào sang đầu ra

Thiết lập để phân loại và hồi quy

Không giám sát

  1. D= ={x0,x1,Giáo dục,xn}
  2. g
  3. Chúng tôi có ít hoặc không có biện pháp nào để nói liệu chúng tôi có làm điều gì đó hữu ích / thú vị không

Chúng tôi có một số dữ liệu, nhưng chúng tôi không biết bắt đầu tìm kiếm những thứ hữu ích / thú vị ở đâu

Cài đặt để phân cụm, giảm kích thước, tìm các yếu tố ẩn, mô hình tổng quát, v.v.

Gia cố

  1. Chúng tôi không có dữ liệu
  2. gxtôiR(xtôi)
  3. Chúng tôi đánh giá bằng chức năng phần thưởng sau khi nó có thời gian để tìm hiểu.

Chúng tôi không biết làm thế nào để làm một cái gì đó, nhưng chúng tôi có thể nói liệu nó đã được thực hiện đúng hay sai

Điều này có vẻ đặc biệt hữu ích cho các nhiệm vụ quyết định tuần tự.

Tài liệu tham khảo:
Si, J., Barto, A., Powell, W. và Wunsch, D. (2004) Học tập củng cố và mối quan hệ của nó với việc học có giám sát, trong Sổ tay học tập và lập trình động gần đúng, John Wiley & Sons, Inc., Hoboken, NJ, Hoa Kỳ. doi: 10.1002 / cái70544785.ch2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.