Làm thế nào để AI học cách hành động khi không gian vấn đề quá lớn


10

Tôi học tốt nhất thông qua thử nghiệm và ví dụ. Tôi đang tìm hiểu về mạng lưới thần kinh và có (những gì tôi nghĩ) là một sự hiểu biết khá tốt về phân loại và hồi quy và cũng có sự giám sát và học tập không giám sát, nhưng tôi đã vấp phải điều gì đó mà tôi không thể im lặng tìm ra;

Nếu tôi muốn đào tạo một AI để chơi một trò chơi phức tạp; Tôi đang suy nghĩ điều gì đó giống như RTS (ví dụ: Age of Empires, Empire Earth, v.v.). Trong các loại trò chơi này thường có một số thực thể được điều khiển bởi người chơi (đơn vị, tòa nhà) mỗi loại có khả năng khác nhau. Có vẻ như vấn đề của AI là phân loại (ví dụ: chọn đơn vị đó và hành động đó), tuy nhiên vì số lượng đơn vị là một biến nên người ta xử lý vấn đề phân loại theo cách này như thế nào?

Điều duy nhất tôi có thể nghĩ đến là nhiều mạng thực hiện các giai đoạn khác nhau (một cho chiến lược tổng thể, một cho việc kiểm soát loại đơn vị này, một cho loại công trình đó, v.v.); nhưng điều này có vẻ như tôi đang làm cho vấn đề trở nên phức tạp.

Có ví dụ nào hay về máy học / mạng nơ-ron học các trò chơi phức tạp (không cụ thể là RTS, nhưng Mario phức tạp hơn )?


"RTS AI: Các vấn đề và kỹ thuật", webdocs.cs.ualberta.ca/~cdavid/pdf/ecgg15_ch CHƯƠNG
Anton Tarasenko

Có thể hữu ích đối với câu trả lời: ijcai.org/ con07 / Paper / IJCAI07-168.pdf và đánh giá tương tự: aigamedev.com/open/review/transfer-learning-rts
Neil Slater

Câu trả lời:


4

Đó là một câu hỏi hay và nhiều nhà khoa học trên thế giới cũng đang hỏi như vậy. Chà, đầu tiên một trò chơi như Age of Empires không được coi là có không gian giải pháp thực sự lớn, không có quá nhiều thứ bạn có thể làm. Điều tương tự trong các trò chơi như Mario Bros. Vấn đề học trong các trò chơi dễ như trò chơi Atari đã được giải quyết bởi những kẻ của DeepMind (ở đây là tờ giấy ), được Google mua lại. Họ đã sử dụng một triển khai Học tăng cường với Học sâu.

Quay trở lại câu hỏi của bạn. Một vấn đề thực sự lớn là làm thế nào để bắt chước số lượng quyết định mà con người phải thực hiện mỗi ngày. Thức dậy, ăn sáng, tắm, rời khỏi nhà của bạn ... Tất cả những hành động này cần một trí thông minh thực sự cao và nhiều hành động để phát triển.

Có nhiều người làm việc về vấn đề này, tôi là một trong số họ. Tôi không biết giải pháp nhưng tôi có thể nói cho bạn biết tôi đang tìm kiếm theo cách nào. Tôi theo lý thuyết của Marvin Minsky, ông là một trong những người cha của AI. Cuốn sách này, Máy cảm xúc, kể một cái nhìn rất tốt về vấn đề. Ông cho rằng cách tạo ra một cỗ máy bắt chước hành vi của con người không phải bằng cách xây dựng một lý thuyết nhỏ gọn thống nhất về trí tuệ nhân tạo. Ngược lại, ông lập luận rằng bộ não của chúng ta chứa các tài nguyên cạnh tranh lẫn nhau để thỏa mãn các mục tiêu khác nhau cùng một lúc. Họ gọi đây là những cách nghĩ .


1

Câu hỏi tuyệt vời. Đây là một vấn đề phức tạp và cách tiếp cận bạn sử dụng sẽ phụ thuộc vào mức độ phức tạp của vấn đề. Bất kỳ vấn đề nào chúng tôi cố gắng giải quyết sẽ có một mức độ phức tạp liên quan đến nó, được định nghĩa thông tục là "số lượng những thứ tương tác hoặc những thứ cần được xem xét." Trong học tập có giám sát và không giám sát, chúng tôi chỉ định chính xác số lượng điều cần xem xét.

Ví dụ, trong hồi quy tuyến tính đa biến, chúng tôi cho thuật toán học biết có bao nhiêu tính năng cần xem xét khi khớp một mô hình (số lượng cột trong tập huấn luyện của bạn). Tình trạng tương tự cũng xảy ra đối với việc học tập không giám sát; một tập huấn luyện được xác định rõ ràng với một số tính năng rõ ràng được sử dụng (trong trường hợp này không có nhãn).

Những gì bạn đang phải đối mặt là một tình huống không phù hợp để phân loại hoặc hồi quy, bởi vì bạn không thể xác định chính xác số lượng "điều cần xem xét". Như bạn nói, không gian vấn đề của bạn là vô cùng lớn. Một cách khác để suy nghĩ về điều này là về mặt tập huấn cần thiết để học một mô hình; Làm thế nào là khó khăn cho bạn tưởng tượng các tập huấn luyện trông như thế nào? Trong trường hợp của bạn khó khăn. Chính xác thì các cột trong bộ của tôi chứa gì?

Đây là lý do tại sao các ứng dụng như xe tự lái, Atari và AlphaGo không sử dụng phân loại hoặc hồi quy. Không thể biết tập huấn luyện sẽ trông như thế nào. Bạn có thể thử, nhưng mô hình của bạn sẽ thất bại trong việc đưa ra dự đoán mạnh mẽ (trong trường hợp này là di chuyển). Có bao nhiêu điều bạn phải cân nhắc để xây dựng một mô hình về điều kiện đường xá?

Đây là lý do tại sao một loại thứ ba của máy học, học tăng cường, tồn tại. Thay vì sử dụng một tập huấn luyện được chỉ định trước, nó sử dụng thử và lỗi. Bằng cách liên tục chọc vào môi trường của nó, nó có thể học được một chính sách hoạt động lâu dài.

Vì vậy, đối với các không gian vấn đề nhỏ hơn, nơi chúng tôi có cơ hội xác định tập huấn luyện, chúng tôi sử dụng máy học có giám sát và không giám sát. Đối với không gian vấn đề lớn hơn, nơi khó xác định tập huấn luyện, chúng tôi sử dụng phương pháp học tăng cường. Tất nhiên bạn cũng có thể thực hiện các kết hợp thú vị của tất cả các phương pháp trên, nhưng nó vẫn đi xuống phức tạp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.