Tại sao mạng lưới thần kinh dễ bị lừa?


13

Tôi đã đọc một số bài viết về việc tạo hình ảnh thủ công để "đánh lừa" một mạng lưới thần kinh (xem bên dưới).

Đây có phải là vì các mạng chỉ mô hình xác suất có điều kiện ? Nếu một mạng có thể mô hình xác suất chung p ( y , x ) , những trường hợp như vậy có còn xảy ra không?p(y|x)
p(y,x)

Tôi đoán là những hình ảnh được tạo ra nhân tạo như vậy khác với dữ liệu đào tạo, vì vậy chúng có xác suất thấp . Do đó p ( y , x ) phải thấp ngay cả khi p ( y | x ) có thể cao đối với các hình ảnh đó.p(x)p(y,x)p(y|x)

Cập nhật

Tôi đã thử một số mô hình thế hệ, hóa ra nó không hữu ích, vì vậy tôi đoán có lẽ đây là hậu quả của MLE?

Ý tôi là trong trường hợp phân kỳ KL được sử dụng làm hàm mất mát, giá trị của trong đó p d a t a ( x ) nhỏ không ảnh hưởng đến tổn thất. Vì vậy, đối với một hình ảnh giả định không khớp với p d a t a , giá trị của p θ có thể tùy ý.pθ(x)pdmộttmột(x)pdmộttmộtpθ

Cập nhật

Tôi tìm thấy một blog của Andrej Karpathy cho thấy

Những kết quả này không cụ thể đối với hình ảnh, ConvNets và chúng cũng không phải là một lỗ hổng trong trò chơi Deep Learning.

nhập mô tả hình ảnh ở đây
GIẢI THÍCH VÀ KHAI THÁC TUYỆT VỜI
nhập mô tả hình ảnh ở đây
Các mạng lưới thần kinh sâu dễ dàng bị đánh lừa: Dự đoán độ tin cậy cao cho hình ảnh không thể nhận ra


Câu hỏi dường như là ra DNN chứ không phải NN nói chung?
Matthew Gunn

@MatthewGunn Tôi không chắc, theo câu trả lời của seanv507 có vẻ như là một vấn đề chung hơn.
dontloo

@MattewGunn giải thích và khai thác bài viết ví dụ về nghịch cảnh - chương trình cũng áp dụng cho hồi quy logistic
seanv507

Câu trả lời:


10

Loại mô hình mà bạn đang đề cập được gọi là mô hình 'thế hệ' trái ngược với phân biệt đối xử và không thực sự mở rộng quy mô dữ liệu chiều cao. Một phần thành công của NN trong các nhiệm vụ ngôn ngữ là việc chuyển từ mô hình thế hệ (HMM) sang mô hình phân biệt đối xử 'hơn' (ví dụ MEMM sử dụng hồi quy logistic cho phép sử dụng hiệu quả dữ liệu theo ngữ cảnh https://en.wikipedia.org/ wiki / Hidden_Markov_model # Tiện ích mở rộng )

Tôi sẽ lập luận rằng lý do họ bị lừa là một vấn đề tổng quát hơn. Đó là sự thống trị hiện tại của AI điều khiển ML 'nông' so với các phương pháp tinh vi hơn. [trong nhiều bài báo có đề cập rằng các mô hình ML khác cũng dễ bị lừa - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]

"mô hình ngôn ngữ" hiệu quả nhất cho nhiều nhiệm vụ là "túi từ". Không ai sẽ cho rằng điều này đại diện cho một mô hình có ý nghĩa của ngôn ngữ loài người. Không khó để tưởng tượng rằng những mô hình kiểu này cũng dễ bị lừa.

các nhiệm vụ thị giác máy tính tương tự như nhận dạng đối tượng đã được cách mạng hóa bằng 'túi từ ngữ trực quan', đã thổi bay các phương pháp tính toán chuyên sâu hơn (không thể áp dụng cho các tập dữ liệu lớn).

CNN là tôi sẽ tranh luận một 'túi từ' trực quan tốt hơn - như bạn thể hiện trong hình ảnh của mình, các lỗi được thực hiện ở các tính năng cấp độ pixel / mức thấp; mặc dù tất cả các hyperbole đều không có đại diện cấp cao trong các lớp ẩn - (mọi người đều mắc lỗi, vấn đề là một người sẽ phạm 'sai lầm' do các tính năng cấp cao hơn và ví dụ như nhận ra phim hoạt hình về một con mèo mà tôi không ' t tin rằng một NN sẽ).

Một ví dụ về mô hình thị giác máy tính tinh vi hơn (hoạt động kém hơn NN), ví dụ như mô hình 'bộ phận biến dạng'.


4

Theo như tôi biết, hầu hết các mạng thần kinh không sử dụng phân phối xác suất aa tiên nghiệm trên các hình ảnh đầu vào. Tuy nhiên, bạn có thể giải thích việc lựa chọn tập huấn luyện là phân phối xác suất như vậy. Theo quan điểm đó, những hình ảnh được tạo ra nhân tạo này khó có thể được chọn làm hình ảnh trong bộ thử nghiệm. Một cách để đo lường 'xác suất chung' sẽ là tạo ngẫu nhiên các hình ảnh và sau đó gắn nhãn chúng. Vấn đề sẽ là phần lớn, VAST sẽ không có nhãn. Vì vậy, để có được một số lượng hợp lý các ví dụ được dán nhãn sẽ mất quá nhiều thời gian.


cảm ơn bạn đã trả lời :) Tôi không chắc ý nghĩa của nó là gì "Một cách để đo lường 'xác suất chung' sẽ là tạo ngẫu nhiên các hình ảnh và sau đó gắn nhãn chúng." )?
dontloo

1
Ý tôi là tạo hình ảnh bằng cách chọn ngẫu nhiên các giá trị RGB của từng pixel. Điều đó có nghĩa là hình ảnh gấu trúc trên cùng bên phải trong bài đăng của bạn và hình ảnh gấu trúc "vượn" trên cùng bên trái sẽ có xác suất được tạo ra bằng nhau. Vấn đề với điều này là mỗi pixel có 2 ^ 24 màu có thể và phần lớn các hình ảnh được tạo ra sẽ là vô nghĩa. Vào thời điểm bạn tạo ra ngay cả một hình ảnh duy nhất có thể được gắn nhãn là "gấu trúc", vũ trụ sẽ biến mất.
dimpol

oh tôi hiểu rồi, có vẻ như rất nhiều việc phải làm, dù sao cũng cảm ơn bạn.
dontloo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.