Là trí tuệ nhân tạo dễ bị hack?

27

Bài viết Những hạn chế của việc học sâu trong cài đặt đối thủ khám phá cách các mạng thần kinh có thể bị hỏng bởi kẻ tấn công có thể thao túng tập dữ liệu mà mạng nơ-ron huấn luyện. Các tác giả thử nghiệm một mạng lưới thần kinh có nghĩa là đọc các chữ số viết tay, làm suy yếu khả năng đọc của nó bằng cách làm biến dạng các mẫu chữ số viết tay mà mạng lưới thần kinh được đào tạo.

Tôi lo ngại rằng các diễn viên độc hại có thể thử hack AI. Ví dụ

Lừa xe tự hành để giải thích sai dấu hiệu dừng so với giới hạn tốc độ.
Bỏ qua nhận dạng khuôn mặt, chẳng hạn như những người cho ATM.
Bỏ qua các bộ lọc thư rác.
Phân tích tình cảm đánh giá các bộ phim, khách sạn, vv
Bỏ qua động cơ phát hiện bất thường.
Làm giả lệnh bằng giọng nói.
Phân loại sai máy học dựa trên dự đoán y tế.

Những tác động bất lợi có thể phá vỡ thế giới? Làm thế nào chúng ta có thể ngăn chặn nó?

— Surya Sg
nguồn

6

Hãy xem xét rằng trí thông minh của con người dễ bị hack

— Gaius

Hấp dẫn. Bạn có quan tâm đến "các mô hình rủi ro cài đặt nghịch cảnh" hoặc một cái gì đó gần gũi hơn với câu trả lời an ninh mạng truyền thống nhưng vẫn thẳng thắn về AI? Lời chúc tốt nhất.

— Khải huyền Tautological

19

AI dễ bị tổn thương từ hai quan điểm bảo mật theo cách tôi nhìn thấy:

Phương pháp cổ điển khai thác các lỗi lập trình hoàn toàn để đạt được một số loại thực thi mã trên máy đang chạy AI hoặc để trích xuất dữ liệu.
Thủ thuật thông qua tương đương với ảo ảnh quang học AI cho dạng dữ liệu cụ thể mà hệ thống được thiết kế để đối phó.

Phần đầu tiên phải được giảm nhẹ theo cùng một cách như bất kỳ phần mềm nào khác. Tôi không chắc chắn liệu AI có dễ bị tổn thương hơn ở mặt trận này so với các phần mềm khác hay không, tôi có xu hướng nghĩ rằng sự phức tạp có thể làm tăng rủi ro một chút.

Thứ hai có lẽ được giảm nhẹ tốt nhất bởi cả sự tinh chỉnh cẩn thận của hệ thống như đã lưu ý trong một số câu trả lời khác, nhưng cũng bằng cách làm cho hệ thống nhạy cảm hơn với ngữ cảnh; nhiều kỹ thuật đối nghịch dựa vào đầu vào được đánh giá trong chân không.

— Christopher Griffith
nguồn

1

Sự phân chia giữa các lỗ hổng mã và lỗ hổng sử dụng là tốt. Tuy nhiên, các lỗ hổng mã thường là rất nhỏ trong AI. Sự phức tạp của AI nằm trong dữ liệu, cho dù đó là trọng lượng nút trong mạng thần kinh hay cây trong một khu rừng ngẫu nhiên. Chỉ có một ít mã để cung cấp cho AI và rủi ro chính là không cho nó ăn quá nhiều - một rủi ro tràn bộ đệm cổ điển, dễ dàng được giảm thiểu bằng các kỹ thuật cuối thế kỷ 20.

— MSalters

@MSalters Tôi nghĩ thật khó để đưa ra kết luận chung vì độ phức tạp của mã có thể thay đổi rất nhiều giữa các loại tác nhân AI khác nhau (tôi nghĩ nhận xét của bạn phần lớn chính xác cho các mạng thần kinh). Hơn nữa, mặc dù dữ liệu và thao tác của chúng có lẽ là bề mặt tấn công lớn hơn, nhưng sẽ không khôn ngoan khi giảm giá cùng loại tấn công đã cho phép thực thi mã từ xa thông qua các tệp hình ảnh bị xâm phạm trong quá khứ khai thác lỗ hổng trong các ứng dụng xem hình ảnh. Vectơ là dữ liệu được truyền vào, nhưng hành vi vẫn nằm trong tiêu đề lỗ hổng mã, tôi nghĩ vậy.

— Christopher Griffith

7

Lập trình viên vs Lập trình viên

Đó là một "cuộc chiến vô cực": Lập trình viên và Lập trình viên. Tất cả mọi thứ có thể được hack. Phòng ngừa được liên kết với mức độ kiến thức của các chuyên gia phụ trách bảo mật và lập trình viên trong bảo mật ứng dụng.

ví dụ: Có một số cách để xác định người dùng đang cố gắng làm xáo trộn các số liệu được tạo bởi Phân tích tình cảm, nhưng cũng có nhiều cách để tránh các bước đó. Đó là một cuộc chiến khá nhàm chán.

Đại lý vs Đại lý

Một điểm thú vị mà @DukeZhou nêu ra là sự phát triển của cuộc chiến này, liên quan đến hai trí thông minh nhân tạo (tác nhân). Trong trường hợp đó, trận chiến là một trong những kiến thức nhất. Đó là mô hình được đào tạo tốt nhất, bạn biết không?

Tuy nhiên, để đạt được sự hoàn hảo trong vấn đề dễ bị tổn thương, trí thông minh nhân tạo hay siêu trí tuệ nhân tạo vượt qua khả năng lách luật của con người. Như thể kiến thức về tất cả các vụ hack cho đến ngày nay đã tồn tại trong tâm trí của đặc vụ này và anh ta bắt đầu phát triển những cách mới để phá vỡ hệ thống của chính mình và phát triển sự bảo vệ. Phức tạp, phải không?

Tôi tin rằng thật khó để có một AI nghĩ rằng: "Con người sẽ sử dụng một bức ảnh thay vì để khuôn mặt của mình được nhận diện?"

Làm thế nào chúng ta có thể ngăn chặn nó

Luôn có một người giám sát máy, nhưng nó sẽ không hiệu quả 100%. Điều này bất chấp khả năng một tác nhân có thể cải thiện mô hình của riêng mình.

Phần kết luận

Vì vậy, tôi nghĩ kịch bản hoạt động theo cách này: một lập trình viên cố gắng phá vỡ tính hợp lệ của AI và nhà phát triển IA có được kiến thức thông qua nhật ký và thử nghiệm để cố gắng xây dựng một mô hình thông minh hơn và an toàn hơn để cố gắng giảm nguy cơ thất bại.

— Guilherme IA
nguồn

3

Câu trả lời chính xác. (imo, nên là câu trả lời được chấp nhận, nhưng bạn cần cung cấp một số hỗ trợ hoặc liên kết.) bất kể, logic của bạn là chính xác, mặc dù tôi nghĩ rằng điều này sẽ bắt đầu mở rộng ra ngoài Lập trình so với Lập trình viên đến Đại lý so với Đại lý khi các thuật toán mới tăng lên tinh tế, và thực hiện các chiến lược này mà không cần sự thúc giục của con người.

— DukeZhou

1

Đã cập nhật! Điểm tốt @DukeZhou

— Guilherme IA

6

Làm thế nào chúng ta có thể ngăn chặn nó?

Có một số công trình về xác minh AI. Trình xác minh tự động có thể chứng minh các thuộc tính mạnh mẽ của mạng thần kinh. Điều đó có nghĩa là nếu đầu vào X của NN bị nhiễu không nhiều hơn trên một giới hạn nhất định ε (trong một số liệu, ví dụ L2), thì NN đưa ra câu trả lời tương tự trên đó.

Việc xác minh như vậy được thực hiện bởi:

Stanford: https://arxiv.org/pdf/1702.01135.pdf
ETHZ: https://www.sri.inf.ethz.ch/ con / sp2018.pdf
Google: https://arxiv.org/pdf/1803.06567.pdf , https://arxiv.org/pdf/1805.10265.pdf
Bosch: https://arxiv.org/pdf/1805.10265.pdf

Cách tiếp cận này có thể giúp kiểm tra các đặc tính mạnh mẽ của mạng lưới thần kinh. Bước tiếp theo là xây dựng một mạng lưới thần kinh như vậy, đòi hỏi sự mạnh mẽ. Một số giấy tờ trên cũng chứa các phương pháp làm thế nào để làm điều đó.

Có các kỹ thuật khác nhau để cải thiện sự mạnh mẽ của mạng lưới thần kinh:

đào tạo đối thủ (xem ví dụ A. Kurakin và cộng sự, ICLR 2017 )
chưng cất phòng thủ (xem ví dụ: N. Papernot và cộng sự, SSP 2016 )
Phòng thủ MMSTV ( Maudry et al., ICLR 2018 ).

Ít nhất là cái cuối cùng có thể làm cho NN mạnh mẽ hơn. Nhiều tài liệu có thể được tìm thấy ở đây .

— Ilya Palachev
nguồn

2

Điều này nghe có vẻ như là một yêu cầu không thể ... trừ khi đó là về một số đầu vào cụ thể X, chứ không phải là đầu vào chung X? Trong trường hợp nào, dường như không có gì để nói về khả năng hack, vì các yếu tố đầu vào không cần phải giới hạn trong sự nhiễu loạn của những người trong khóa đào tạo?

— Mehrdad

1

@Mehrdad: Có thể đạt được theo nghĩa xác suất nếu không gian đầu vào được cấu trúc đủ để bạn có thể lấy mẫu ngẫu nhiên. Điều đó có nghĩa là, bạn có thể có thể thiết lập rằng với 95% đầu vào có thể, 95% nhiễu loạn nhỏ hơn ε không ảnh hưởng đến nhãn lớp. Điều này tương đương với việc thiết lập rằng đường viền giữa các lớp đầu ra trong không gian đầu vào trơn tru hoặc phần lớn nhất của không gian đầu vào không nằm gần đường viền lớp. Rõ ràng một số phần của không gian đầu vào phải nằm gần biên giới lớp.

— MSalters

Tôi không chắc chắn điều này sẽ áp dụng trong trường hợp "nghịch cảnh" được mô tả trong bài báo: Ở đó, (IIRC) một gradient lan truyền ngược được thêm vào toàn bộ ảnh, do đó, thay đổi đối với đầu vào hoàn chỉnh có thể khá lớn - ngay cả khi sự thay đổi cho từng pixel riêng lẻ hầu như không đáng chú ý.

— Niki

@MSalters: Tôi đoán, vâng. Nhưng sau đó, điều đó dường như làm giảm giá trị của nó một chút công bằng trừ khi bạn thực sự có thể hiển thị các hình ảnh trên biên giới lớp nên thực sự nằm trên biên giới lớp ...

— Mehrdad

Câu "Bước tiếp theo là xây dựng một mạng lưới thần kinh như vậy, đòi hỏi sự mạnh mẽ" đang được nghiên cứu. Nói chung, rất khó để thoát khỏi vấn đề không mạnh mẽ NN. Nhưng có thể tăng cường sức mạnh bằng cách huấn luyện đối thủ (xem ví dụ: A. Kurakin và cộng sự, ICLR 2017 ), chưng cất phòng thủ (xem ví dụ: N. Papernot et al., SSP 2016 ), phòng thủ MMSTV ( Maudry et al., ICLR 2018 ). Ít nhất là cái cuối cùng có thể làm cho NN mạnh mẽ hơn.

— Ilya Palachev

4

Tôi tin rằng, không có hệ thống nào an toàn, tuy nhiên tôi không chắc liệu tôi có thể nói điều này sau 20-30 năm phát triển / phát triển AI hay không. Dù sao, có những bài báo cho thấy con người đánh lừa AI (Computer Vision).

https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

https://spectrum.ieee.org/cars-that-think/transportation/sensors/slight-street-sign-modutions-can-fool-machine-learning-alacticms

— Akio
nguồn

4

Trí tuệ nhân tạo có dễ bị hack không?

Đảo ngược câu hỏi của bạn một lát và suy nghĩ:

Điều gì sẽ khiến AI ít có nguy cơ bị hack so với bất kỳ loại phần mềm nào khác?

Vào cuối ngày, phần mềm là phần mềm và sẽ luôn có lỗi và vấn đề bảo mật. AI có nguy cơ đối với tất cả các vấn đề mà phần mềm không phải AI có nguy cơ mắc phải, vì AI không cấp cho nó một loại miễn dịch nào.

Đối với việc giả mạo cụ thể của AI, AI có nguy cơ bị cung cấp thông tin sai lệch. Không giống như hầu hết các chương trình, chức năng của AI được xác định bởi dữ liệu mà nó tiêu thụ.

Ví dụ trong thế giới thực, vài năm trước Microsoft đã tạo ra một chatbot AI có tên Tay. Người dân Twitter mất chưa đầy 24 giờ để dạy nó nói rằng "Chúng tôi sẽ xây dựng một bức tường và mexico sẽ trả tiền cho nó":

(Hình ảnh được lấy từ bài báo Verge được liên kết bên dưới, tôi khẳng định không có tín dụng nào cho nó.)

Và đó chỉ là phần nổi của tảng băng chìm.

Một số bài viết về Tay:

Bây giờ hãy tưởng tượng đó không phải là một bot trò chuyện, hãy tưởng tượng đó là một phần quan trọng của AI từ tương lai nơi AI chịu trách nhiệm về những việc như không giết người ngồi trong xe (tức là xe tự lái) hoặc không giết chết bệnh nhân bảng điều hành (tức là một số loại thiết bị hỗ trợ y tế).

Cấp, người ta sẽ hy vọng những AI như vậy sẽ được bảo mật tốt hơn trước các mối đe dọa như vậy, nhưng giả sử ai đó đã tìm cách cung cấp cho hàng loạt thông tin sai lệch AI như vậy mà không bị chú ý (rốt cuộc, những tin tặc giỏi nhất không để lại dấu vết), điều đó thực sự có nghĩa sự khác biệt giữa sự sống và cái chết.

Sử dụng ví dụ về một chiếc xe tự lái, hãy tưởng tượng nếu dữ liệu sai lệch có thể khiến chiếc xe nghĩ rằng cần phải dừng khẩn cấp khi đi trên đường cao tốc. Một trong những ứng dụng cho AI y tế là các quyết định sống hay chết trong ER, hãy tưởng tượng nếu một hacker có thể đưa ra các thang điểm có lợi cho quyết định sai.

Làm thế nào chúng ta có thể ngăn chặn nó?

Cuối cùng, quy mô của rủi ro phụ thuộc vào mức độ phụ thuộc của con người vào AI. Ví dụ, nếu con người đưa ra phán xét về AI và không bao giờ đặt câu hỏi về nó, họ sẽ tự mở ra cho mình mọi kiểu thao túng. Tuy nhiên, nếu họ sử dụng phân tích của AI như một phần của câu đố, sẽ dễ dàng phát hiện ra khi AI sai, thông qua các phương tiện vô tình hoặc độc hại.

Trong trường hợp của một người ra quyết định y tế, đừng chỉ tin vào AI, thực hiện các bài kiểm tra thể chất và cũng nhận được một số ý kiến của con người. Nếu hai bác sĩ không đồng ý với AI, hãy loại bỏ chẩn đoán của AI.

Trong trường hợp của một chiếc xe hơi, một khả năng là có một số hệ thống dự phòng về cơ bản phải 'bỏ phiếu' về những việc cần làm. Nếu một chiếc xe có nhiều AI trên các hệ thống riêng biệt phải bỏ phiếu về hành động nào cần thực hiện, một hacker sẽ phải loại bỏ nhiều hơn một AI để kiểm soát hoặc gây ra bế tắc. Điều quan trọng, nếu các AI chạy trên các hệ thống khác nhau, việc khai thác tương tự được sử dụng trên một hệ thống khác không thể được thực hiện trên một hệ thống khác, làm tăng thêm khối lượng công việc của hacker.

— Pharap
nguồn

1

Tôi thích ý tưởng có một số hệ thống AI riêng biệt phải đạt được thỏa thuận như một kỹ thuật giảm thiểu. Mặc dù sau đó, bạn phải được đảm bảo bất kỳ cơ chế bỏ phiếu nào họ sử dụng không thể bao gồm để đưa ra quyết định giả mạo.

— Christopher Griffith

@ChristopherGriffith Đúng, đó là một rủi ro. Trong trường hợp của chiếc xe, cách tốt nhất để giảm thiểu đó là thiết kế hệ thống sao cho kẻ tấn công cần có quyền truy cập vật lý để điều khiển nó và khiến nó khó tiếp cận để người đó phải đột nhập vào xe để truy cập. Giữ một hệ thống ngoại tuyến nói chung là một biện pháp đối phó hack tốt, mặc dù không phải lúc nào cũng lý tưởng.

— Pharap

1

Tôi đồng tình với Akio rằng không có hệ thống nào hoàn toàn an toàn, nhưng điều đáng nói là các hệ thống AI ít bị tấn công hơn khi so sánh với các hệ thống cũ vì khả năng liên tục cải thiện.

Khi thời gian trôi qua, nhiều người sẽ tham gia vào lĩnh vực mang đến những ý tưởng mới và phần cứng sẽ được cải thiện để họ trở thành "AI mạnh mẽ".