AlphaGo (và các chương trình trò chơi khác sử dụng học tăng cường) mà không cần cơ sở dữ liệu của con người


14

Tôi không phải là một chuyên gia của chủ đề này, và câu hỏi của tôi có lẽ là rất ngây thơ. Nó bắt nguồn từ một bài tiểu luận để hiểu sức mạnh và giới hạn của việc học tăng cường như được sử dụng trong chương trình AlphaGo.

Chương trình AlphaGo đã được xây dựng bằng cách sử dụng, trong số những thứ khác (khám phá cây cối, v.v.), mạng lưới thần kinh được đào tạo từ một cơ sở dữ liệu khổng lồ về các trò chơi cờ vây do con người chơi và sau đó được củng cố bằng cách cho phép chơi các phiên bản của chương trình chống lại chính nó nhiều lần.

Bây giờ tôi tự hỏi điều gì sẽ xảy ra là chúng tôi đã cố gắng xây dựng một chương trình như vậy mà không có cơ sở dữ liệu của con người, tức là bắt đầu với một chương trình cơ bản của Go chỉ biết các quy tắc và một số phương pháp để khám phá cây cối, và chơi với chính nó để cải thiện mạng lưới thần kinh của nó. Chúng ta, sau nhiều trò chơi chống lại chính nó, sẽ đến một chương trình có thể cạnh tranh hoặc đánh bại những người chơi giỏi nhất của con người? Và nếu vậy, cần bao nhiêu trò chơi (theo thứ tự độ lớn) cho điều đó? Hoặc ngược lại, một chương trình như vậy sẽ hội tụ về một người chơi yếu hơn nhiều?

Tôi cho rằng thử nghiệm đã không được thực hiện, vì AlphaGo rất gần đây. Nhưng câu trả lời có thể rõ ràng đối với một chuyên gia. Nếu không, bất kỳ phỏng đoán giáo dục sẽ quan tâm đến tôi.

Người ta cũng có thể đặt câu hỏi tương tự cho các trò chơi "đơn giản hơn". Nếu chúng ta sử dụng các kỹ thuật học tăng cường tương tự được sử dụng cho AlphaGo, nhưng không sử dụng cơ sở dữ liệu của con người, cho chương trình Cờ vua, cuối cùng chúng ta sẽ có được một chương trình có thể đánh bại con người tốt nhất? Và nếu vậy, làm thế nào nhanh? Điều này đã được thử chưa? Hoặc nếu không phải là Cờ vua, vậy còn Cờ đam, hoặc các trò chơi đơn giản hơn thì sao?

Cảm ơn rất nhiều.

Câu trả lời:


11

Tôi không phải là chuyên gia nhưng có vẻ như AlphaGo Zero trả lời câu hỏi của bạn. https://deepmind.com/blog/alphago-zero-learning-scratch/

Các phiên bản trước của AlphaGo ban đầu được đào tạo về hàng ngàn trò chơi nghiệp dư và chuyên nghiệp của con người để học cách chơi cờ vây. AlphaGo Zero bỏ qua bước này và học cách chơi đơn giản bằng cách chơi các trò chơi với chính nó, bắt đầu từ việc chơi hoàn toàn ngẫu nhiên. Khi làm như vậy, nó nhanh chóng vượt qua cấp độ chơi của con người và đánh bại phiên bản đánh bại nhà vô địch AlphaGo đã được công bố trước đó bằng 100 trò chơi về 0.


Đây có phải là gần đây?
kosmos

1
Điều này đã được xuất bản vào ngày 18 tháng 10 năm 2017.
ncasas

Sẽ rất thú vị khi biết kết quả chống lại con người. Bởi vì một lý do cho cơ sở dữ liệu con người được đào tạo trước là để tinh chỉnh thuật toán MCTS chống lại các đối thủ của con người . AlphaGo gốc đã được tối ưu hóa để chơi với con người, không phải ML khác. Vì vậy, khó có thể nói liệu AlphaGo Zero hoàn toàn "tốt" hơn AlphaGo gốc hay chỉ chiếm ưu thế trong ý nghĩa lý thuyết trò chơi - ví dụ AlphaGo Zero đánh bại AlphaGool đánh bại AlphaGo Zero. . .
Neil Slater

4
Neil, vâng điều này sẽ rất thú vị. Nhưng tôi sẽ không đặt cược một phần trăm cơ hội của con người chống lại Alpha Go zero.
Joël

1
Q

9

Câu hỏi tương tự đã được đặt ra cho tác giả của bài báo AlphaGo và câu trả lời của anh ấy là chúng tôi không biết điều gì sẽ xảy ra nếu AlphaGo học từ đầu (họ đã không kiểm tra nó).

Tuy nhiên, do sự phức tạp của trò chơi, việc đào tạo một thuật toán từ đầu mà không có kiến ​​thức trước sẽ là một nhiệm vụ khó khăn. Vì vậy, thật hợp lý khi bắt đầu xây dựng một hệ thống như vậy bằng cách nâng cấp nó lên cấp Master sử dụng kiến ​​thức mà con người có được.

Điều đáng chú ý là, mặc dù con người di chuyển sai lệch lựa chọn hành động tại các nút cây (trạng thái), nhưng điều này trước có yếu tố phân rã. Điều này có nghĩa là tăng lượt truy cập đến một trạng thái cụ thể, giảm sức mạnh của trước để khuyến khích thuật toán khám phá.

Mức độ hiện tại của Mastery of AlphaGo không rõ là cách chơi của con người gần hay xa (trong giải đấu, người ta đã thực hiện một động tác mà con người có xác suất gần như bằng không! . Có thể vẫn còn cho tất cả những câu hỏi này được trả lời bằng cách thực sự thực hiện các thuật toán thử nghiệm tương ứng.

Tôi nợ để chỉnh sửa câu trả lời của tôi khi bài báo gần đây của DeepMind trả lời câu hỏi của bạn. Có rất nhiều tiến bộ xuất phát từ toàn bộ trải nghiệm trước đó với phiên bản đầu tiên của AlphaGo và nó thực sự đáng để đọc nó.


Bạn được chào đón :)
Constantinos

8

Theo như tôi hiểu thuật toán của AlphaGo, nó dựa trên khung học tập củng cố đơn giản (RL), sử dụng tìm kiếm cây Monte-Carlo để chọn các hành động tốt nhất. Trên hết, các trạng thái và hành động được thuật toán RL bao phủ không chỉ đơn giản là toàn bộ cấu hình có thể có của trò chơi (Go có độ phức tạp rất lớn) mà dựa trên mạng chính sách và mạng giá trị, được học từ các trò chơi thực và sau đó được cải thiện bằng cách chơi trò chơi AlphaGo vs AlphaGo.

Sau đó, chúng tôi có thể tự hỏi nếu đào tạo từ các trò chơi thực sự chỉ là một phím tắt để tiết kiệm thời gian hoặc một tùy chọn cần thiết để có được hiệu quả như vậy. Tôi đoán không ai thực sự biết câu trả lời, nhưng chúng ta có thể nêu ra một số giả định. Đầu tiên, khả năng của con người để thúc đẩy các bước di chuyển tốt là do trí thông minh phức tạp hơn nhiều so với một mạng lưới thần kinh đơn giản. Đối với các trò chơi bảng, nó là sự pha trộn giữa trí nhớ, kinh nghiệm, logic và cảm xúc. Theo hướng này, tôi không chắc thuật toán AlphaGo có thể xây dựng một mô hình như vậy mà không khám phá rõ ràng một tỷ lệ lớn trong toàn bộ cấu hình của trò chơi Go (điều này thực tế là không thể). Các nghiên cứu hiện tại tập trung vào việc xây dựng đại diện phức tạp hơn của một trò chơi như vậy, như RL quan hệ hoặc học logic quy nạp. Sau đó, đối với các trò chơi đơn giản hơn (có thể là trường hợp cho cờ vua nhưng không có gì chắc chắn),

Tuy nhiên, đó chỉ là một ý kiến. Nhưng tôi khá chắc chắn rằng chìa khóa để trả lời câu hỏi của bạn nằm trong phương pháp RL ngày nay vẫn còn khá đơn giản về mặt kiến ​​thức. Chúng tôi thực sự không thể xác định được điều gì khiến chúng tôi có thể xử lý các trò chơi này, và cách tốt nhất chúng tôi tìm thấy cho đến khi đánh bại con người là học hỏi một cách thô bạo từ anh ta, và cải thiện (một chút) mô hình đã học bằng các tính toán lớn.


1

Tự chơi cạnh tranh mà không có cơ sở dữ liệu của con người thậm chí có thể cho các môi trường phức tạp, được quan sát một phần. OpenAI đang tập trung vào hướng này. Theo bài viết này :

Tự chơi đảm bảo rằng môi trường luôn là khó khăn phù hợp để AI cải thiện.

Đó là một lý do quan trọng cho sự thành công của tự chơi.

OpenAI đã đạt được kết quả siêu phàm cho Dota 2 1v1, vào ngày 11 tháng 8 năm 2017, đánh bại Dendi 2-0 theo luật thi đấu tiêu chuẩn.

Bot đã học trò chơi từ đầu bằng cách tự chơi và không sử dụng học giả hoặc tìm kiếm cây. Đây là một bước để xây dựng các hệ thống AI hoàn thành các mục tiêu được xác định rõ trong các tình huống lộn xộn, phức tạp liên quan đến con người thực.

Không chỉ các trò chơi, hướng đi này cũng hứa hẹn cho các nhiệm vụ robot.

Chúng tôi đã phát hiện ra rằng tự chơi cho phép các AI mô phỏng khám phá các kỹ năng thể chất như xử lý, đạp vịt, giả mạo, đá, bắt và lặn để lấy bóng, mà không cần thiết kế một môi trường rõ ràng với những kỹ năng này.

Trong bước tiếp theo, họ mở rộng phương pháp để học cách hợp tác, cạnh tranh và giao tiếp , không chỉ giới hạn ở việc tự chơi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.