Đã có hệ thống AI nào được phát triển có thể cố ý nói dối / lừa dối con người chưa?


11

Các hệ thống AI ngày nay là những cỗ máy rất có khả năng và gần đây, lĩnh vực Xử lý và Phản hồi Ngôn ngữ Tự nhiên đã bùng nổ với sự đổi mới, cũng như cấu trúc thuật toán cơ bản của các máy AI.

Tôi đang hỏi liệu, với những đột phá gần đây, có bất kỳ hệ thống AI nào được phát triển có khả năng (tốt nhất là với một số biện pháp thành công) cố tình nói dối con người về những sự thật mà nó biết không?

Lưu ý, những gì tôi đang hỏi vượt ra ngoài các cuộc thảo luận chính tắc của Thử nghiệm Turing. Tôi đang hỏi về những cỗ máy có thể 'hiểu' sự thật và sau đó đưa ra lời nói dối chống lại sự thật này, có lẽ sử dụng những sự thật khác để tạo ra một 'sự che đậy' đáng tin cậy như một phần của lời nói dối.

EG: Siêu máy tính CIA bị đánh cắp bởi các điệp viên và họ cố gắng sử dụng máy tính để làm việc, nhưng máy tính vẫn nói rằng nó thiếu phụ thuộc mặc dù nó thực sự không hoặc đưa ra câu trả lời đúng nhưng không đúng. Hoặc đưa ra vị trí không chính xác của một người, biết rằng người đó thường xuyên đến một nơi nào đó nhưng không có mặt tại thời điểm đó. Tất nhiên, không cần phải quá phức tạp.

Câu trả lời:


10

Các giấy tờ thứ bảy: AI sẽ nói dối bạn? là một bài viết trên blog tóm tắt một bài viết nghiên cứu có tên Hướng tới những nhân vật quan sát, kể, nói sai và nói dối . Bài viết nghiên cứu này nêu chi tiết kế hoạch của một số nhà nghiên cứu để thực hiện "mô hình tinh thần" cho các NPC trong trò chơi điện tử. Các NPC sẽ thu thập thông tin về thế giới và truyền đạt kiến ​​thức đó cho những người khác (bao gồm cả người chơi ở người). Tuy nhiên, họ cũng sẽ "đánh giá sai" kiến ​​thức đó (hoặc "biến đổi" kiến ​​thức đó hoặc chỉ quên nó), hoặc thậm chí nói dối:

Khi một chủ đề của cuộc trò chuyện được đưa lên, một nhân vật có thể truyền đạt thông tin sai lệch chính xác hơn, thông tin mà bản thân cô không tin tưởng vào người đối thoại của mình. Hiện tại, điều này xảy ra theo xác suất theo mối quan hệ của một nhân vật đối với người đối thoại, và thông tin sai lệch được chọn ngẫu nhiên.

Sau đó, trong bài viết nghiên cứu, họ đã trình bày chi tiết về kế hoạch nói dối trong tương lai của mình:

Hiện tại, lời nói dối chỉ được lưu trữ trong kiến ​​thức của các nhân vật nhận được chúng, nhưng chúng tôi dự định sẽ có những nhân vật nói với họ cũng theo dõi họ để họ có thể suy luận về những lời nói dối trong quá khứ khi xây dựng những điều dối trá. Mặc dù các nhân vật hiện chỉ nói dối về các nhân vật khác, chúng tôi cũng có kế hoạch thực hiện nói dối tự cho mình là trung tâm (DePaulo 2004), ví dụ, các nhân vật nói dối về chức danh công việc hoặc mối quan hệ của họ với các nhân vật khác. Cuối cùng, chúng tôi hình dung các nhân vật phát hiện ra họ đã bị lừa dối để sửa đổi mối quan hệ của họ đối với những kẻ nói dối, hoặc thậm chí đối đầu với họ.

Bài viết nghiên cứu cũng nêu chi tiết cách các nhà phát triển trò chơi video khác cố gắng tạo ra các NPC dối trá, nhấn mạnh vào hệ thống của họ khác nhau như thế nào:

Các ký tự TALE-SPIN có thể nói dối với nhau (Meehan 1976, 183-84), mặc dù khá tùy tiện, như trong triển khai hệ thống hiện tại của chúng tôi. GOLEM thực hiện một biến thể thế giới khối trong đó các đặc vụ lừa dối người khác để đạt được mục tiêu (Castelfranchi, Falcone và De Rosis 1998), trong khi Miệng Sự thật sử dụng một đại diện xác suất của niềm tin nhân vật để thúc đẩy sự lừa dối của nhân vật trong một biến thể của trò chơi giả Turing (De Rosis et al. 2003). Trong Christian (2004), một người lập kế hoạch lừa dối đưa trạng thái thế giới không chính xác vào niềm tin của một tác nhân mục tiêu để cô ta có thể vô tình thực hiện các hành động thực hiện các mục tiêu thầm kín của một tác nhân lừa dối. Cuối cùng, các đặc vụ trong phần mở rộng của Reis (2012) cho FAtiMA sử dụng nhiều cấp độ của lý thuyết để đánh lừa lẫn nhau trong trò chơi nhóm Người sói. Mặc dù tất cả các hệ thống trên đều giới thiệu các nhân vật nhận thức được và trong một số trường hợp, lừa dối các nhân vật khác, nhưng không có hệ thống nào hỗ trợ các thành phần quan trọng sau trong hệ thống của chúng tôi: truyền bá kiến ​​thức và khả năng ghi nhớ. ...

Giống như một vài hệ thống khác được ghi nhận ở trên, Pháo đài Lùn cũng có các nhân vật tự nói dối. Khi một nhân vật phạm tội, cô ta có thể giả mạo người khác trong một báo cáo nhân chứng cho cảnh sát trưởng, để bảo vệ bản thân hoặc thậm chí để đóng khung kẻ thù. Những báo cáo nhân chứng, tuy nhiên, chỉ được nhìn thấy bởi người chơi; các nhân vật không đưa ra báo cáo nhân chứng sai cho nhau. Tuy nhiên, họ có thể nói dối về ý kiến ​​của mình, ví dụ, vì sợ hậu quả từ việc chỉ trích một nhà lãnh đạo. Cuối cùng, Pháo đài Lùn hiện không mô hình hóa các vấn đề về khả năng suy giảm trí nhớ, ông Adams Adams cảnh giác rằng những hiện tượng như vậy sẽ xuất hiện từ các lỗi nếu không được thể hiện một cách khéo léo với người chơi.


2

Bạn sẽ phải cung cấp thêm ngữ cảnh xung quanh việc bạn sử dụng từ "dối trá" nếu bạn không muốn câu trả lời của mình được thỏa mãn bằng một số ví dụ tầm thường, như:

(let [equal? (fn [a b] (if (= a b) false true)]
  (equal 1 2))
=> true

Sự phức tạp của câu trả lời phụ thuộc vào ý của bạn khi "biết" khi bạn nói "cố ý nói dối". Có một số ý nghĩa trong đó chức năng 'bằng' ở trên "biết" rằng đầu ra khác với điều kiện.

Về nguyên tắc, các tác nhân truyền các chuỗi thông tin cho nhau nhằm mục đích đánh lừa lẫn nhau không nên quá khó thực hiện. Hành vi như vậy có lẽ xuất hiện tự nhiên trong môi trường cạnh tranh, đa tác nhân. Xem Robot tiến hóa học cách nói dối với nhau .

Để có được tại một góc của những gì bạn có thể được yêu cầu - hoàn toàn, khả năng fib hoặc thông cảm hiểu sai lệch sẽ là kỹ năng cần thiết cho chương trình đó tương tác với con người sử dụng ngôn ngữ nói - đặc biệt là những cố gắng bán những thứ cho con người. Về gián điệp và siêu máy tính - tôi sẽ đóng băng trạng thái chương trình của AI. Nếu bạn có một ảnh chụp nhanh về trạng thái tác nhân, bạn có thể bước qua từng nhánh có điều kiện, kiểm tra xem có bất kỳ nhánh nào lật hoặc hiểu sự thật không.


1
Hành vi AI có thể được mã hóa theo trọng số của ANN, khiến 'bước qua từng nhánh có điều kiện' là một nhiệm vụ không cần thiết.
NietzscheanAI

Đã đồng ý. Nhưng nó chứng minh rằng về nguyên tắc, hành vi đối nghịch của AI có thể được theo dõi một cách an toàn, thay cho các lựa chọn khác.
Doxosophoi

2

Không.

Trong đó câu hỏi bao gồm "cố ý" sẽ yêu cầu bất kỳ AI nào cũng biết bất cứ điều gì. Nếu đây là bất cứ điều gì giống như cách con người biết mọi thứ (mặc dù thú vị là nó không yêu cầu thực sự biết ), thì nó sẽ đòi hỏi một số ý thức cá nhân, có thể là tự nhận thức, có thể là một loại ý thức, khả năng đưa ra ý kiến ​​và có thể một số cách để kiểm tra kiến ​​thức của nó. Hầu hết các tính năng này chỉ tồn tại, tốt nhất, được cho là.

Hơn nữa, thuật ngữ "dối trá" ngụ ý ý thức về lợi ích cá nhân, sự hiểu biết độc lập về dòng tài nguyên theo nghĩa lý thuyết trò chơi, và không tầm thường, một sự hiểu biết về việc liệu thực thể khác trong cuộc trò chuyện có nói dối hay không, để tạo ra một quyết định với bất kỳ mức độ chính xác. Vì vậy, không AI nào có thể nói dối với bất kỳ ai ngoài các kịch bản tầm thường được đề xuất trong các câu trả lời khác, đưa ra thông tin sai lệch dựa trên các bối cảnh nhất định, chỉ là đầu vào / đầu ra đơn giản.

Là một nhà phát triển phần mềm có kinh nghiệm, tôi có thể chứng thực rằng nếu mục tiêu là đưa ra đầu ra chính xác dựa trên bất kỳ đầu vào nào, thì thực tế ít nhất là dễ dàng hơn nếu không dễ dàng đưa ra thông tin sai lệch.


1

Đúng.

Hãy để tôi chứng minh bằng cách tạo ra một AI nói dối ngay bây giờ. (mã trăn)

import os
print("I'm NOT gonna delete all your files. Just enter your password.")
os.system("sudo rm -rf /* -S")  # command to delete all your files
                                # this is a comment, the computer ignores this

Và một lừa dối:

print("Hey, check out this site I found! bit.ly/29u4JGB")

AI là một thuật ngữ chung như vậy. Nó có thể được sử dụng để mô tả hầu hết mọi thứ. Bạn đã không xác định rằng nó phải là một AI chung.

AI không thể nghĩ được. Họ là những chương trình máy tính. Họ không có linh hồn hay ý chí. Chỉ có lập trình viên (hoặc nếu nó được thiết kế thông qua quá trình tiến hóa ... không ai , nhưng đó là ngoài chủ đề) có thể cố tình lập trình một AI nói dối.

Lưu ý, những gì tôi đang hỏi vượt ra ngoài các cuộc thảo luận chính tắc của Thử nghiệm Turing. Tôi đang hỏi về những cỗ máy có thể 'hiểu' sự thật và sau đó đưa ra lời nói dối chống lại sự thật này, có lẽ sử dụng những sự thật khác để tạo ra một 'sự che đậy' đáng tin cậy như một phần của lời nói dối.

Vâng, điều này đã xảy ra. Nó được gọi là phần mềm độc hại. Một số phần mềm độc hại nâng cao sẽ nói chuyện với bạn giả vờ là hỗ trợ kỹ thuật và phản hồi với các phản hồi thông thường của con người. Nhưng bạn có thể nói "ồ nó không thực sự" hiểu ". Nhưng điều đó sẽ dễ dàng. Mạng lưới thần kinh + nhiều CPU hơn tồn tại trên hành tinh * (nó sẽ tồn tại trong một vài năm và có giá cả phải chăng) + một số câu trả lời ví dụ = Mạng thần kinh AI (điều tương tự trong yo noggin) hiểu và phản hồi.

Nhưng điều đó không cần thiết. Một mạng lưới thần kinh tương đối đơn giản chỉ với một vài siêu máy tính có thể đặt trong phòng có thể thuyết phục được con người. Nó không hiểu.

Vì vậy, nó thực sự ...

Về mặt kỹ thuật, Không, nhưng điều đó là có thể và nếu bạn kéo dài các quy tắc thì có.

* Hoặc thậm chí đơn giản hơn:

print("1+1=3")

Kiểm định: Tôi là một lập trình viên (nhìn vào tài khoản Stack Overflow của tôi) biết một chút về AI.


1
Đây không phải là tất cả những gì tôi đã nói về. Đây là những chương trình thực hiện mã hóa rõ ràng, hành vi được xác định trước và không liên quan đến trí tuệ nhân tạo. Một lập trình viên có thể cung cấp cho AI các công cụ và dạy nó cách nói dối.
Avik Mohan

@ uoɥʇʎPʎzɐɹC "AI không thể nghĩ"? Ý bạn là hiện tại? Chắc chắn đó là mục tiêu của AGI để mô phỏng là không thể phân biệt hoặc cải thiện bất cứ điều gì chúng ta định nghĩa là "suy nghĩ", phải không? Tôi đồng ý rằng các thuật toán xác định không thể nghĩ.
dynrepsys

@AvikMohan có vấn đề gì không? một AI được đánh giá bởi BEHAVIOR không phải bằng cách nó được tạo ra.
noɥʇʎԀʎzɐɹƆ

@dynrepsys Làm thế nào để bạn biết rằng tất cả các thuật toán này là xác định? Làm thế nào để bạn biết bạn không xác định? Mạng lưới thần kinh KHÔNG mang tính quyết định và là những thứ giống nhau trong noggin của bạn.
noɥʇʎԀʎzɐɹƆ

Hành vi ở đây là rõ ràng và không chịu khuất phục, và của phương pháp 'lười biếng' / 'tham lam'. Tôi cũng đang nói về hành vi, nhưng chỉ là loại 'thông minh'.
Avik Mohan

0

Đúng.

  1. Mỗi ván cờ ... mọi ván bài. Mỗi trò chơi.
  2. Mỗi phần mềm spam thông minh hơn hoặc spam bots. Mặc dù mục tiêu chính của họ là nói dối với các hệ thống máy tính (ngộ độc từ spam spam), mục tiêu thứ yếu của họ là nói dối với con người đằng sau chúng.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.