Lovelace Test 2.0 đã được sử dụng thành công trong môi trường học thuật chưa?

Vào tháng 10 năm 2014, Tiến sĩ Mark Riedl đã xuất bản một cách tiếp cận để kiểm tra trí thông minh AI, được gọi là "Lovelace Test 2.0" , sau khi được truyền cảm hứng từ Thử nghiệm Lovelace ban đầu (xuất bản năm 2001). Mark tin rằng Thử nghiệm Lovelace ban đầu sẽ không thể vượt qua, và do đó, đã đề xuất một phiên bản yếu hơn và thực tế hơn.

Lovelace Test 2.0 đưa ra giả định rằng để một AI thông minh, nó phải thể hiện sự sáng tạo. Từ tờ giấy:

Thử nghiệm Lovelace 2.0 như sau: tác nhân nhân tạo a bị thách thức như sau:

a phải tạo ra một tạo tác o loại t;

o phải tuân theo một tập hợp các ràng buộc C trong đó ci ∈ C là bất kỳ tiêu chí nào có thể biểu thị bằng ngôn ngữ tự nhiên;

một người đánh giá con người h, đã chọn t và C, hài lòng rằng o là một thể hiện hợp lệ của t và gặp C; và

một trọng tài người r xác định sự kết hợp của t và C để không phi thực tế đối với một người bình thường.

Vì người đánh giá con người có thể đưa ra một số ràng buộc khá dễ dàng để AI đánh bại, người đánh giá con người sau đó dự kiến sẽ tiếp tục đưa ra các ràng buộc ngày càng phức tạp hơn cho AI cho đến khi AI thất bại. Quan điểm của Lovelace Test 2.0 là so sánh sự sáng tạo của các AI khác nhau, không đưa ra một ranh giới phân chia rõ ràng giữa 'trí thông minh' và 'không thông minh' như Thử nghiệm Turing.

Tuy nhiên, tôi tò mò về việc liệu bài kiểm tra này có thực sự được sử dụng trong môi trường học thuật hay không, hay nó chỉ được xem như một thử nghiệm tư duy vào lúc này. Thử nghiệm Lovelace có vẻ dễ áp dụng trong môi trường học thuật (bạn chỉ cần phát triển một số hạn chế có thể đo được mà bạn có thể sử dụng để kiểm tra tác nhân nhân tạo), nhưng nó cũng có thể quá chủ quan (con người có thể không đồng ý với những hạn chế nhất định và một tạo tác sáng tạo được tạo ra bởi một AI thực sự đáp ứng kết quả cuối cùng).

history intelligence-testing

— Còn lại SE vào 10_6_19
nguồn

Không.

TL; DR: Lovelace Test 2.0 rất mơ hồ, khiến nó không phù hợp để đánh giá trí thông minh. Nó cũng thường bị bỏ qua bởi các nhà nghiên cứu về Sáng tạo tính toán, những người đã có các thử nghiệm riêng để đánh giá sự sáng tạo.

Trả lời dài hơn: Theo Google Scholar, có 10 tài liệu tham khảo cho bài báo "Lovelace Test 2.0". Tất cả các tài liệu tham khảo đó tồn tại chỉ để chỉ ra rằng Lovelace Test 2.0 tồn tại. Trên thực tế, ít nhất hai bài báo tôi đã tham khảo ( Cách tiếp cận mới để xác định hành vi tự ý thức giống con người và FraMoTEC: Khung công tác mô đun - Xây dựng môi trường để đánh giá các hệ thống kiểm soát thích ứng thay thế ) đã đề xuất các thử nghiệm của riêng họ .

Một trong những tác giả đã viết bài FraMoTEC cũng đã viết luận án về FraMoTEC và gián tiếp phê bình Bài kiểm tra Lovelace 2.0 và các bài kiểm tra tương tự khác:

Vấn đề phòng của Piaget-MacGyver [Bringsjord và Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] và vấn đề Toy Box [Johnston, 2010] đều đi kèm với sự cảnh báo được xác định rất mơ hồ - những phương pháp đánh giá này có thể sẽ đến với một đánh giá hợp lý cho trí thông minh, nhưng rất khó để so sánh hai tác nhân (hoặc bộ điều khiển) khác nhau tham gia vào các đánh giá cụ thể theo miền của họ, đó là điều thường xảy ra khi các tác nhân được điều chỉnh để vượt qua các đánh giá cụ thể.

Một vấn đề lớn khác với Lovelace Test 2.0 là có sự phổ biến các thử nghiệm khác để "đo lường" sự sáng tạo của AI. Đánh giá Đánh giá: Đánh giá Tiến bộ trong Nghiên cứu Sáng tạo Tính toán , được xuất bản bởi Anna Jordanous vào năm 2011 (3 năm trước khi phát minh ra Lovelace Test 2.0) đã phân tích các tài liệu nghiên cứu về sáng tạo AI và đã viết:

Trong số 18 bài báo áp dụng các phương pháp đánh giá sáng tạo để đánh giá sự sáng tạo của hệ thống của họ, không có phương pháp nào nổi lên như là tiêu chuẩn trên toàn cộng đồng. Khung chân máy sáng tạo của Colton ( Colton 2008 ) được sử dụng thường xuyên nhất (6 lần sử dụng), với 4 bài viết sử dụng tiêu chí thực nghiệm của Ritchie ( Ritchie 2007 ).

Điều đó để lại 10 bài báo với các phương pháp đánh giá sáng tạo linh tinh.

Mục tiêu của "Đánh giá đánh giá" là chuẩn hóa quá trình đánh giá sự sáng tạo, để tránh khả năng lĩnh vực bị đình trệ do sự phổ biến của rất nhiều bài kiểm tra sáng tạo. Anna Jordanous vẫn quan tâm đến việc đánh giá các bài kiểm tra sáng tạo, xuất bản các bài báo như "Bước lùi để tiến lên phía trước: Thiết lập các tiêu chuẩn để đánh giá tổng hợp về sáng tạo tính toán" và bốn quan điểm của PPPPers về sáng tạo tính toán .

"Đánh giá Đánh giá" cung cấp một số bình luận để giải thích sự phổ biến của các hệ thống để đánh giá sự sáng tạo:

Tiêu chuẩn đánh giá không dễ xác định. Thật khó để đánh giá sự sáng tạo và thậm chí còn khó khăn hơn để mô tả cách chúng ta đánh giá sự sáng tạo, trong sáng tạo của con người cũng như trong sáng tạo tính toán. Trên thực tế, ngay cả định nghĩa về sự sáng tạo cũng có vấn đề (Plucker, Beghetto và Dow 2004). Thật khó để xác định những gì 'sáng tạo' đòi hỏi, vì vậy không có tiêu chuẩn hoặc sự thật nền tảng nào để đo lường.

Thực tế là có rất nhiều bài kiểm tra về sự sáng tạo đã tồn tại (đến mức Jordanous có thể tạo ra một sự nghiệp học tập trong việc nghiên cứu chúng) có nghĩa là rất khó để bất kỳ bài kiểm tra mới nào (như Bài kiểm tra Lovelace 2.0) được chú ý (ít được trích dẫn hơn ). Tại sao bạn muốn sử dụng một cái gì đó như Lovelace Test 2.0 khi có rất nhiều thử nghiệm khác bạn có thể sử dụng thay thế?

— Còn lại SE vào 10_6_19
nguồn