Chắc chắn có một cách để giới thiệu những gì nhiều người đang gọi học tập tăng cường vào các ứng dụng web, di động và máy trạm thực sự.
Các tổ chức quân sự làm điều đó, ngành công nghiệp điện ảnh làm điều đó, các công ty tập trung vào phần mềm đang làm điều đó và tôi đã làm điều đó cho Fortune 500 doanh nghiệp và các doanh nghiệp nhỏ. Có các thành phần học tập thích ứng trong tất cả các loại thành phần hệ thống được nhúng vào các hệ thống lớn hơn, từ robot nhận dạng khuôn mặt của FaceBook đến Google Dịch đến hệ thống nhận dạng mã zip USPS đến hệ thống điều khiển giao thông và bay tự động. Phần mềm thiết kế hỗ trợ máy tính (CAD) chắc chắn là một mục tiêu khả thi.
Cơ sở cho cốt thép
Hãy xem xét một loạt các vectơ mô tả các sự kiện. Hãy tưởng tượng chúng được chia thành hai chuỗi con A và B. Một mạng lưới thần kinh (nhân tạo hoặc sinh học) có thể được đào tạo bằng cách sử dụng A.
Việc đào tạo có thể được giám sát, có nghĩa là một trong các kích thước của vectơ được coi là nhãn và do đó biến phụ thuộc để dự đoán tối ưu. Các kích thước khác sau đó trở thành sự kiện hoặc tín hiệu đầu vào và do đó các biến độc lập được sử dụng để dự đoán. Việc đào tạo có thể không được giám sát bằng cách sử dụng tính năng trích xuất.
Dù bằng cách nào, khi được cung cấp A trước B và dự kiến sẽ thực hiện trong sản xuất (sử dụng thực tế) trước khi B đến, việc B đến sau sẽ đưa ra một lựa chọn.
- Xóa các trọng số và bất kỳ điều chỉnh tham số meta nào được thực hiện trong quá trình đào tạo với A và chạy lại quá trình đào tạo với chuỗi A và B. được nối với nhau.
- Tiếp tục đào tạo với B, trong trường hợp đó, mạng sẽ bị sai lệch với A và kết quả sẽ khác với kết quả đạt được khi đào tạo với B rồi A.
- Tìm cách hạn chế sự thiên vị của việc được đào tạo lần đầu với A trong khi tránh tiêu thụ tài nguyên cần thiết cho lựa chọn số 1 ở trên.
Lựa chọn số 3 là lựa chọn tốt nhất trong nhiều trường hợp vì nó chứa những lợi ích của lựa chọn số 1 và số 2. Về mặt toán học, # 3 được thực hiện bằng cách tạo điều kiện thuận lợi cho những gì đã học được từ loạt A theo một cách nào đó. Các trọng số mạng thần kinh và các điều chỉnh tham số meta phải được thực hiện dễ điều chỉnh vì kinh nghiệm mới cho thấy sự cần thiết phải làm như vậy. Một cách tiếp cận ngây thơ có thể được xây dựng một cách toán học là hàm số mũ nghịch đảo, mô hình phân rã tự nhiên trong nhiều hiện tượng trong vật lý, hóa học và khoa học xã hội.
P = e -nt , trong đó P là xác suất thực tế vẫn hiệu quả, n là tốc độ phân rã của thông tin đã học trong quá khứ và t là một số đo lường của tiến trình chuyển tiếp, chẳng hạn như dấu thời gian, số thứ tự phụ (lô), số thứ tự thực tế, hoặc số sự kiện.
Trong trường hợp của chuỗi con A và B, khi công thức trên được thực hiện theo cách nào đó trong cơ chế học tập, việc đào tạo A sẽ đặt ít sai lệch hơn vào kết quả cuối cùng sau khi tiếp tục đào tạo sử dụng B vì t cho A ít hơn so với t cho B, nói với cơ chế rằng B có lẽ thích hợp hơn.
Nếu chúng ta chia đệ quy A và B thành hai nửa, tạo ra chuỗi con nhiều hơn và nhiều hơn, ý tưởng trên về việc để thông tin trước đó phân rã dần vẫn còn hợp lệ và có giá trị. Sự thiên vị của mạng với thông tin đầu tiên được sử dụng cho đào tạo là tương đương với các khái niệm tâm lý của sự hẹp hòi. Các hệ thống học tập phát triển thành bộ não của động vật có vú dường như quên hoặc mất hứng thú với những điều trong quá khứ để khuyến khích tinh thần cởi mở, không gì khác hơn là để cho việc học mới đôi khi tránh được việc học trước đó nếu thông tin mới chứa các kiểu mạnh hơn để học.
Có HAI lý do để cho phép dữ liệu mẫu mới hơn dần dần vượt xa dữ liệu mẫu cũ hơn.
- Việc loại bỏ sự thiên vị của việc học trước đó để cân nhắc đầy đủ các sự kiện gần đây trong việc học thêm có ý nghĩa nếu tất cả các sự kiện đã trải qua (được đào tạo) thể hiện sự thật hợp lý về thế giới bên ngoài mà hệ thống đang cố gắng học.
- Thế giới bên ngoài có thể đang thay đổi và việc học cũ hơn có thể thực sự trở nên không liên quan hoặc thậm chí sai lệch.
Điều này cần phải để tầm quan trọng của việc phân rã thông tin trước dần dần khi việc học tiếp tục là một trong hai khía cạnh chính của củng cố. Khía cạnh thứ hai là một tập hợp các khái niệm khắc phục được xây dựng trên ý tưởng về tín hiệu phản hồi.
Phản hồi và củng cố
Một tín hiệu phản hồi trong học tập củng cố là máy học tương đương với các khái niệm tâm lý quen thuộc như đau đớn, khoái cảm, mãn nguyện và khỏe mạnh. Hệ thống học tập được cung cấp thông tin để hướng dẫn đào tạo ngoài mục tiêu trích xuất tính năng, tính độc lập của các nhóm hoặc tìm ma trận trọng số mạng thần kinh gần đúng mối quan hệ giữa các tính năng sự kiện đầu vào và nhãn của chúng.
Thông tin được cung cấp có thể bắt nguồn từ bên trong từ nhận dạng mẫu được lập trình sẵn hoặc bên ngoài từ phần thưởng và hình phạt, như trường hợp của động vật có vú. Các kỹ thuật và thuật toán được phát triển trong học máy gia cố thường xuyên sử dụng các tín hiệu bổ sung này (sử dụng cắt thời gian trong xử lý) hoặc liên tục sử dụng tính độc lập của các đơn vị xử lý của kiến trúc xử lý song song.
Công trình này đã được tiên phong tại MIT bởi Norbert Wiener và được đặt ra trong cuốn sách Cybernetics (MIT Press 1948) của ông. Từ Cybernetics xuất phát từ một từ cũ hơn có nghĩa là lái tàu . Chuyển động tự động của một bánh lái để ở trên khóa học có thể là hệ thống phản hồi cơ học đầu tiên. Động cơ máy cắt cỏ của bạn có thể có một.
Ứng dụng và học tập thích ứng
Thích ứng đơn giản trong thời gian thực cho vị trí bánh lái hoặc van tiết lưu cắt cỏ không học. Thích ứng như vậy thường là một số hình thức của điều khiển PID tuyến tính. Công nghệ máy học đang được mở rộng ngày nay bao gồm việc đánh giá và kiểm soát các hệ thống phi tuyến phức tạp mà các nhà toán học gọi là hỗn loạn.
Bằng cách hỗn loạn, họ không có nghĩa là các quá trình được mô tả là điên cuồng hoặc vô tổ chức. Những người hỗn loạn đã phát hiện ra nhiều thập kỷ trước rằng các phương trình phi tuyến tính đơn giản có thể dẫn đến hành vi có tổ chức cao. Điều họ muốn nói là hiện tượng này quá nhạy cảm với những thay đổi nhỏ để tìm một số thuật toán hoặc công thức cố định để dự đoán chúng.
Ngôn ngữ là như thế. Cùng một tuyên bố với một tá các giọng hát khác nhau có thể có nghĩa là một tá những điều khác nhau. Câu tiếng Anh, "Thực sự," là một ví dụ. Có khả năng các kỹ thuật gia cố sẽ cho phép các máy móc trong tương lai phân biệt với xác suất thành công cao giữa các ý nghĩa khác nhau của tuyên bố đó.
Tại sao trò chơi đầu tiên?
Các trò chơi có một tập hợp rất đơn giản và dễ dàng xác định các tình huống có thể xảy ra. Một trong những người đóng góp chính cho sự ra đời của máy tính, John von Neumann, đã lập luận trong Lý thuyết về trò chơi và hành vi kinh tế , một cuốn sách mà ông là đồng tác giả với Oskar Morgenstern, rằng tất cả các kế hoạch và ra quyết định thực sự là chơi trò chơi phức tạp.
Xem xét các trò chơi tập hợp ví dụ đào tạo của bộ sưu tập bộ não, theo thời gian, sẽ tạo ra các hệ thống có thể xác định ý nghĩa của một tuyên bố như những người có học có thể từ ba nguồn gợi ý.
- Bối cảnh trong một cuộc trò chuyện hoặc kịch bản xã hội
- Giọng hát của người nói
- Biểu cảm khuôn mặt và ngôn ngữ cơ thể của người nói
Ngoài cờ vua và trò chơi cờ vây
Dọc theo con đường từ trò chơi đến hệ thống ngôn ngữ với khả năng hiểu chính xác và khả năng nghe sâu hơn, có một số ứng dụng học tập được củng cố có tầm quan trọng lớn hơn nhiều đối với trái đất và trải nghiệm của con người.
- Các hệ thống học cách tắt hoặc làm giảm ánh sáng, thiết bị, hệ thống kỹ thuật số, HVAC và các thiết bị tiêu thụ năng lượng khác - Năng lượng có lẽ là mặt hàng có ảnh hưởng chính trị nhất trong lịch sử loài người vì sự cạn kiệt tài nguyên nhiên liệu hóa thạch theo thời gian.)
- Phát triển phương tiện tự động - Xu hướng nguy hiểm khi vận hành các thiết bị hạng nặng, như máy bay, RV, xe tải, xe buýt và xe đầu kéo của những người không biết tâm trí trên những con đường rộng mở có thể sẽ bị người dân tương lai nhìn nhận là sự điên rồ.
- Đánh giá độ tin cậy của thông tin - Thông tin ở khắp mọi nơi và hơn 99% trong số đó là do lỗi, một phần hoặc hoàn toàn. Rất ít được xác thực bởi nghiên cứu thực tế, hoặc được thiết kế và giải thích các nghiên cứu ngẫu nhiên mù đôi hoặc thử nghiệm và phân tích trong phòng thí nghiệm có thể xác nhận.
- Các ứng dụng chăm sóc sức khỏe chẩn đoán tốt hơn, các biện pháp khắc phục phù hợp với từng cá nhân và hỗ trợ tiếp tục chăm sóc để ngăn ngừa tái phát.
Bốn và nhiều thứ khác quan trọng hơn nhiều so với tích lũy tài sản thông qua giao dịch tốc độ cao tự động hoặc chiến thắng các cuộc thi trò chơi, hai sở thích học máy tự làm trung tâm chỉ tác động đến một hoặc hai thế hệ của một gia đình.
Sự giàu có và danh tiếng là những gì trong lý thuyết trò chơi được gọi là trò chơi tổng bằng không . Họ tạo ra nhiều tổn thất như có tiền thắng nếu bạn xem xét triết lý Quy tắc Vàng cao hơn rằng những người khác và gia đình của họ có tầm quan trọng như nhau đối với chúng tôi.
Học tăng cường cho phần mềm CAD (Thiết kế hỗ trợ máy tính)
Thiết kế hỗ trợ máy tính là tiền thân tự nhiên của thiết kế máy tính (không có sự trợ giúp từ con người), giống như việc chống phá khóa tự nhiên dẫn đến các phương tiện tự trị hoàn toàn.
Hãy xem xét lệnh: "Tạo cho tôi một đĩa xà phòng cho vòi hoa sen của tôi để tối đa hóa khả năng gia đình tôi có thể lấy xà phòng ngay lần thử đầu tiên mà không cần mở mắt và giảm thiểu khó khăn trong việc giữ xà phòng và bề mặt vòi hoa sen sạch sẽ. Dưới đây là độ cao của các thành viên gia đình tôi và một số hình ảnh của không gian tắm. " Sau đó, một máy in 3D sẽ bật ra thiết bị, sẵn sàng đính kèm, cùng với hướng dẫn cài đặt.
Tất nhiên, một hệ thống CD (CAD không có A) như vậy sẽ cần được đào tạo về vệ sinh, hành vi của con người mà không có tầm nhìn, cách gắn vật phẩm vào gạch, các công cụ và khả năng bảo trì nhà của người tiêu dùng trung bình, khả năng của máy in 3D và một số thứ khác
Những phát triển như vậy trong tự động hóa sản xuất có thể sẽ bắt đầu bằng việc học tăng cường các lệnh đơn giản hơn như, "Đính kèm hai bộ phận này bằng cách sử dụng ốc vít được sản xuất hàng loạt và thực hành tốt nhất." Chương trình CAD sau đó sẽ chọn phần cứng trong số các ốc vít, đinh tán, chất kết dính và các tùy chọn khác, có thể đặt câu hỏi cho nhà thiết kế về nhiệt độ vận hành và phạm vi rung. Sự lựa chọn, vị trí và góc sau đó sẽ được thêm vào tập hợp các bộ phận CAD và bản vẽ lắp ráp và hóa đơn vật liệu.