Một mạng lưới thần kinh có thể làm việc ra khái niệm khoảng cách?


10

Hãy tưởng tượng một trò chơi trong đó nó là một màn hình đen ngoài pixel đỏ và pixel xanh. Đưa trò chơi này cho một người, trước tiên họ sẽ thấy rằng nhấn các phím mũi tên sẽ di chuyển pixel màu đỏ. Điều tiếp theo họ sẽ thử là di chuyển pixel đỏ lên pixel xanh.

Đưa trò chơi này cho AI, nó sẽ di chuyển ngẫu nhiên pixel đỏ cho đến khi một triệu lần thử sau đó nó vô tình di chuyển lên pixel xanh để nhận phần thưởng. Nếu AI có một số khái niệm về khoảng cách giữa pixel đỏ và xanh lam, nó có thể cố gắng giảm thiểu khoảng cách này.

Nếu không thực sự lập trình theo khái niệm khoảng cách, nếu chúng ta lấy các pixel của trò chơi, chúng ta có thể tính được một số, chẳng hạn như "entropy", sẽ thấp hơn khi các pixel cách xa nhau so với khi ở gần nhau không? Nó nên hoạt động với các cấu hình pixel khác. Chẳng hạn như một trò chơi có ba pixel trong đó một là tốt và một là xấu. Chỉ để cung cấp cho các mạng thần kinh nhiều hơn một cảm giác về màn hình trông như thế nào? Sau đó, cung cấp cho NN một mục tiêu, chẳng hạn như "cố gắng giảm thiểu entropy của hội đồng quản trị cũng như cố gắng để nhận phần thưởng".

Có điều gì giống với điều này trong nghiên cứu hiện tại?


Tôi không nghĩ rằng bạn sẽ trực tiếp cung cấp cho nó hình ảnh và để nó tìm thấy khoảng cách ... Thay vào đó bạn sẽ cung cấp cho nó một tập hợp các số biểu thị khoảng cách, khoảng cách dọc, khoảng cách ngang, v.v.
FreezePhoenix

@Pheo có, nhưng bạn sẽ phải cung cấp cho nó các giá trị khác nhau cho mỗi loại "trò chơi". Trong khi điều tôi đang nói là, chúng ta có thể có một số loại giá trị toàn cầu cao khi các pixel được nhóm lại với nhau và thấp khi các pixel cách nhau không?
Zooby

"Điều tiếp theo họ sẽ thử là di chuyển pixel đỏ lên pixel xanh." có thể không "đỏ" và "xanh" hầu hết là những kẻ thù vì vậy bạn sẽ bắt đầu tăng khoảng cách trước khi pixel màu xanh thông báo cho bạn.
Lee

Câu trả lời:


1

Câu trả lời

Tôi sẽ đưa câu hỏi của bạn theo mệnh giá, và đi sâu vào chủ đề này.

Vâng, họ có thể. Tâm trí con người điển hình có thể. Nhưng hãy xem xét tâm trí con người. Hàng triệu, nếu không phải là hàng tỷ tế bào thần kinh. Trên thực tế, người ta có thể coi khoảng cách là một khái niệm của con người, chỉ đơn giản là một lý thuyết được phát triển từ các tương tác với thế giới.

Do đó, trong một hoặc hai năm, với một tấn tế bào thần kinh trên tay, bạn có thể sao chép kịch bản này. Đó là nếu máy tính của bạn song song như tâm trí con người. Giải thích ngắn gọn là tâm trí con người rất song song.

Tuy nhiên, sẽ đơn giản hơn khi tính khoảng cách với một chương trình, không phải AI và chỉ đơn giản cung cấp kết quả cho AI sẽ đưa ra quyết định.

Hãy xem xét lượng thời gian bạn đã dành để nhìn vào màn hình. Nếu bạn có thể cho biết khoảng cách (gần đúng) giữa hai pixel, thì Mạng thần kinh cũng vậy, vì bạn là một. Tuy nhiên, hãy thêm lượng thời gian bạn đã sống và học vào phương trình, và nó trở thành một thảm họa.

đọc thêm

Bộ não con người song song

Đây là kết quả của thực tế là tất cả các tế bào thần kinh trong não người độc lập với nhau. Họ có thể chạy các hành động đồng thời thực sự , do đó làm cho hành động diễn giải hình ảnh trở nên dễ dàng hơn rất nhiều, vì các khối tế bào thần kinh có thể "nghĩ" độc lập với hoạt động của những người khác, hạn chế những gì sẽ "tụt hậu" xuống một lượng rất nhỏ.


1

Bạn có thể tạo AI để "nhìn" như một con người. Như bạn đã nói, đưa cho con người chìa khóa, anh ta sẽ bấm ngẫu nhiên. Anh ta chỉ cần biết những phím nào anh ta nhấn để đưa anh ta đến gần các vật thể khác trên màn hình. Tôi nghĩ những điều cơ bản của AI là nhận dạng đối tượng. Tôi sẽ cố gắng tạo một kịch bản để ánh xạ các đối tượng màn hình của trò chơi. Có những ví dụ pháp lý trong Python.

Tôi sẽ cố gắng đi theo một con đường như thế này:

  • Làm cho AI hiểu rằng bằng cách nhấp vào mũi tên hoặc WASD và nó nằm trong TRÒ CHƠI bối cảnh, đối tượng di chuyển pixel theo hướng, đại diện cho tác giả chính (người chơi).

  • Song song: ánh xạ tất cả các ranh giới của vùng và lập chỉ mục các đối tượng khác nhau trong vùng đó để tự động có miền tọa độ và khoảng cách đối tượng. AI cần XEM (truyền phát) trò chơi và thông qua hình ảnh để phân loại các đối tượng. Bạn hiểu ý tôi muốn nói gì không?

  • Song song: AI cần nhận thức được tất cả các văn bản và thông tin trên màn hình (tất cả được ánh xạ, nhớ không?). Bạn cần hiểu khi một văn bản thay đổi hoặc một cái gì đó khác nhau xảy ra. Ví dụ: bất cứ khi nào anh ta trở lại vị trí ban đầu của mỗi giai đoạn, bất cứ khi nào anh ta có số đếm, điều gì sẽ xảy ra khi cout đạt đến 0 hoặc một số chung tạo ra một loại thay đổi khác.

  • Anh ta cần phải hiểu những gì được lặp đi lặp lại ở mỗi lần "hồi sinh". Bạn cũng cần hiểu "hồi sinh" là gì. Có thể một vị trí bản đồ nhất định trên mỗi bản đồ, nó sẽ trả về bất cứ khi nào số đếm trên màn hình kết thúc. Hoặc khi nó chống lại một loại đối tượng nhất định (đối tượng được ánh xạ)

Thành thật mà nói, nếu bạn muốn tạo ra một robot siêu thông minh, bạn có thể thực hiện theo tất cả các bước đi qua đầu của những người khác nhau, hoặc những người giỏi nhất hoặc quy tắc của mỗi trò chơi. Nhưng đôi khi việc xây dựng các bot cụ thể để thực hiện các nhiệm vụ cụ thể dễ dàng hơn. Nó phụ thuộc vào những gì bạn muốn làm


Ông đã không yêu cầu như thế nào bạn sẽ làm điều đó, nhưng thay vì có thể bạn làm điều đó.
FreezePhoenix

Có thể làm điều đó theo nhiều cách. Tôi đã thông qua cách tôi sẽ thực hiện để tạo mẫu. Nó không phải là một lý thuyết, nó là một quá trình có thể bao gồm các quá trình khác theo sự phát triển của AI.
Guilherme IA

1

Những gì bạn đề cập có một ví dụ hoàn hảo cho việc lập kế hoạch đường đi , được nghiên cứu rộng rãi về AI.

Vui lòng tìm kiếm thuật toán A-star và cách cải thiện nó với các mạng thần kinh :)


1

Chúng ta có thể phá vỡ vấn đề như sau:

<x0,y0,x1,y1>(x0-y0)2+(x1-y1)2

<x0,y0,x1,y1>

Tất nhiên, không có lý do gì để thực hiện điều này trong hai mạng nơ ron riêng biệt, vì vậy chúng ta chỉ cần kết hợp hai đầu cuối với một mô hình lấy hình ảnh làm đầu vào và khoảng cách làm đầu ra.

Tuy nhiên, mô hình này sẽ cần được đào tạo về dữ liệu được dán nhãn, do đó, bạn cần phải tự tạo dữ liệu hoặc gắn nhãn hình ảnh.

Nhưng nếu bạn muốn nó học được khái niệm thu hẹp khoảng cách theo cách ít giám sát hơn, bạn cần sử dụng học tăng cường. Trong trường hợp này, bạn phải thiết lập một môi trường khuyến khích các đại lý để giảm khoảng cách. Điều này có thể đơn giản như đạt được phần thưởng nếu một hành động làm giảm khoảng cách.

Một cách tiếp cận khác là khuyến khích các đại lý sử dụng phần thưởng trong tương lai. Đó là, phần thưởng không chỉ đến từ kết quả của trạng thái tiếp theo, mà còn có sự đóng góp từ trạng thái có thể tiếp theo, và sau đó, v.v. Đây là ý tưởng đằng sau Deep Q-Learning và tôi thực hiện một ví dụ đơn giản (rất giống với những gì bạn đang mô tả) trong cuốn sổ tay này .

Vì vậy, bây giờ câu hỏi là: việc thực hiện này có làm được điều gì khác ngoài việc di chuyển ngẫu nhiên cho đến khi nó đi theo một con đường dẫn đến thành công không?

Trong ví dụ của bạn, bạn nói về việc thưởng cho đại lý khi nó đạt được mục tiêu. Nhưng trong những gì tôi mô tả, nó đã đạt được phần thưởng bằng cách tiến gần hơn đến mục tiêu (thông qua Chức năng Q hoặc trực tiếp từ môi trường). Nó có thể làm như vậy bằng cách học một số ý tưởng trừu tượng về khoảng cách (có thể được minh họa trong phiên bản được giám sát).

Khi một con người học được điều này, nó cũng có cùng lý do: con người đang nhận được phần thưởng cho việc di chuyển theo hướng đó thông qua ý nghĩa về những phần thưởng trong tương lai.

Tôi muốn nói rằng, được cung cấp đủ dữ liệu và đào tạo, học tập củng cố có thể học được khái niệm này một cách dễ dàng. Theo như các phần thưởng khác có mặt trên bảng (ví dụ: "giảm thiểu entropy của bảng cũng như cố gắng nhận phần thưởng"), bạn cần suy nghĩ về những gì bạn đang hỏi. Bạn có muốn các đại lý tối thiểu hóa khoảng cách hoặc tối đa hóa phần thưởng? Nguyên nhân, nói chung, nó không thể làm cả hai. Nếu bạn đang tìm kiếm sự cân bằng giữa hai người, thì thực sự bạn chỉ cần xác định lại phần thưởng để xem xét khoảng cách.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.