Mô hình học tập sâu không thể được nói là có thể giải thích? Là các tính năng nút?


27

Đối với các mô hình thống kê và học máy, có nhiều mức độ dễ hiểu: 1) toàn bộ thuật toán, 2) các phần của thuật toán nói chung 3) các phần của thuật toán trên các đầu vào cụ thể và ba cấp độ này được chia thành hai phần, Một cho đào tạo và một cho chức năng eval. Hai phần cuối gần hơn nhiều so với phần đầu tiên. Tôi đang hỏi về # 2, điều này thường dẫn đến sự hiểu biết tốt hơn về # 3). (nếu đó không phải là "khả năng diễn giải" nghĩa là gì thì tôi nên nghĩ gì?)

Theo như khả năng diễn giải, hồi quy logistic là một trong những cách dễ nhất để giải thích. Tại sao trường hợp này vượt qua ngưỡng? Bởi vì thể hiện đó có tính năng tích cực đặc biệt này và nó có hệ số lớn hơn trong mô hình. Điều đó quá rõ ràng!

Một mạng lưới thần kinh là ví dụ kinh điển của một mô hình rất khó diễn giải. Tất cả những hệ số đó có nghĩa là gì? Tất cả đều cộng lại theo những cách điên rồ phức tạp đến mức khó có thể nói bất kỳ hệ số cụ thể nào đang thực sự làm.

Nhưng với tất cả các mạng lưới thần kinh sâu ra, có cảm giác như mọi thứ đang trở nên rõ ràng hơn. Các mô hình DL (có thể nói là tầm nhìn) dường như nắm bắt những thứ như các cạnh hoặc định hướng ở các lớp đầu và ở các lớp sau, có vẻ như một số nút thực sự là ngữ nghĩa (như 'tế bào bà ngoại' ). Ví dụ:

nhập mô tả hình ảnh ở đây

( từ 'Học về học tập sâu' )

Đây là một hình ảnh ( của nhiều người ngoài kia ) được tạo ra bằng tay để trình bày nên tôi rất nghi ngờ. Nhưng nó là bằng chứng cho thấy ai đó nghĩ rằng đó là cách nó hoạt động.

Có thể trong quá khứ chỉ có đủ các lớp để chúng ta tìm thấy các đặc điểm dễ nhận biết; các mô hình đã thành công, không dễ để phân tích hậu kỳ cụ thể.

Nhưng có lẽ đồ họa chỉ là mơ tưởng. Có lẽ NN thực sự khó hiểu.

Nhưng nhiều đồ họa với các nút được dán nhãn bằng hình ảnh cũng thực sự hấp dẫn.

Các nút DL có thực sự tương ứng với các tính năng?


6
Tôi không thấy tiền đề của câu hỏi này. Mạng lưới thần kinh đó đã trở nên phức tạp hơn và đưa ra dự đoán tốt hơn không làm cho chúng trở nên dễ hiểu hơn. Điều ngược lại thường đúng: phức tạp / dự đoán tốt hơn <-> đơn giản / giải thích tốt hơn.
AdamO

4
@AdamO hoàn toàn chính xác. Do đó, cây hồi quy (phân vùng đệ quy) chỉ không thể khắc phục được vì kết quả sai . Họ sai vì họ dễ bay hơi; lấy một mẫu mới và cây có thể khác nhau tùy ý. Và cây đơn lẻ không cạnh tranh với sự phân biệt dự đoán. Parsimony thường là kẻ thù của phân biệt đối xử dự đoán. Và với câu hỏi ban đầu, trong lĩnh vực y sinh, kết quả AI / ML đã không thể giải thích được.
Frank Harrell

1
Xem bài viết này Các nhà nghiên cứu AI cho rằng học máy là giả kim sciencemag.org/news/2018/05/ mẹo
Mike Hunter

4
Câu hỏi táo bạo trong cơ thể và câu hỏi trong tiêu đề của bạn rất khác nhau. Có vẻ như tất cả các câu trả lời, bao gồm cả câu trả lời của tôi, đang giải quyết câu hỏi trong tiêu đề. Có lẽ bạn có thể đặt câu hỏi hẹp hơn về các nút và tính năng trong luồng của chính nó? Nhưng trước khi bạn làm điều đó, hãy xem xét rằng bạn đã liên kết với một bài viết trả lời câu hỏi táo bạo của bạn trong câu khẳng định, vì vậy hãy xem xét chính xác những gì bạn muốn tìm hiểu trong câu trả lời trước khi hỏi.
Sycorax nói Phục hồi lại

@Sycorax Liên kết tôi vừa thêm là vào một bài đăng trên blog, không phải là một bài báo, và vì vậy tôi rất hoài nghi về quan điểm khẳng định. Sự đa dạng về khả năng diễn giải mà tôi hỏi về DL trong tiêu đề tôi coi là một phần in đậm trong văn bản.
Mitch

Câu trả lời:


30

Giải thích các mô hình sâu vẫn còn nhiều thách thức.

  1. Bài đăng của bạn chỉ đề cập đến CNN cho các ứng dụng thị giác máy tính, nhưng mạng chuyển tiếp nguồn cấp dữ liệu (sâu hoặc nông) và mạng lặp lại vẫn còn nhiều thách thức để hiểu.

  2. Ngay cả trong trường hợp các CNN có cấu trúc "trình phát hiện tính năng" rõ ràng, chẳng hạn như các cạnh và hướng của các bản vá pixel, thì cũng không hoàn toàn rõ ràng về cách các tính năng cấp thấp này được tổng hợp lên trên, hoặc chính xác là gì đang diễn ra khi các tính năng tầm nhìn này được tổng hợp trong một lớp được kết nối đầy đủ.

  3. Các ví dụ đối nghịch cho thấy việc giải thích mạng khó khăn như thế nào. Một ví dụ đối nghịch có một số sửa đổi nhỏ được thực hiện cho nó, nhưng dẫn đến một sự thay đổi đáng kể trong quyết định của mô hình. Trong bối cảnh phân loại hình ảnh, một lượng nhiễu nhỏ được thêm vào hình ảnh có thể thay đổi hình ảnh của một con thằn lằn để có sự phân loại rất tự tin như một loài động vật khác, giống như một loài chó.

Điều này có liên quan đến khả năng diễn giải theo nghĩa có một mối quan hệ mạnh mẽ, không thể đoán trước giữa lượng nhiễu (nhỏ) và sự thay đổi (lớn) trong quyết định phân loại. Suy nghĩ về cách các mạng này hoạt động, điều này có ý nghĩa: các tính toán ở các lớp trước được truyền về phía trước, do đó, một số lỗi - lỗi nhỏ, không quan trọng đối với con người - được phóng to và tích lũy khi ngày càng nhiều phép tính được thực hiện bằng cách sử dụng đầu vào "bị hỏng".

Mặt khác, sự tồn tại của các ví dụ đối nghịch cho thấy rằng việc giải thích bất kỳ nút nào là một tính năng hoặc lớp cụ thể là khó khăn, vì thực tế là nút được kích hoạt có thể ít liên quan đến nội dung thực tế của ảnh gốc và điều đó mối quan hệ này không thực sự có thể dự đoán được về mặt hình ảnh gốc. Nhưng trong các hình ảnh ví dụ dưới đây, không có con người nào bị lừa dối về nội dung của các hình ảnh: bạn sẽ không nhầm lẫn cột cờ cho một con chó. Làm thế nào chúng ta có thể diễn giải các quyết định này, hoặc tổng hợp (một mẫu nhiễu nhỏ "truyền" một con thằn lằn thành chó hoặc cột cờ thành một con chó) hoặc trong các mảnh nhỏ hơn (một số máy dò đặc trưng nhạy cảm với mẫu nhiễu hơn hình ảnh thực tế Nội dung)?

HAAM là một phương pháp mới đầy hứa hẹn để tạo ra các hình ảnh đối nghịch bằng cách sử dụng các chức năng điều hòa. ("Phương pháp tấn công đối nghịch hài hòa" Wen Heng, Shuchang Zhou, Tingting Jiang.) Hình ảnh được tạo bằng phương pháp này có thể được sử dụng để mô phỏng hiệu ứng ánh sáng / bóng tối và nói chung còn khó khăn hơn đối với con người khi phát hiện bị thay đổi.

Ví dụ, xem hình ảnh này, được lấy từ "Các nhiễu loạn đối nghịch phổ quát ", bởi Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Omar Fawzi và Pascal Frossard. Tôi đã chọn hình ảnh này chỉ vì nó là một trong những hình ảnh nghịch cảnh đầu tiên tôi gặp. Hình ảnh này xác định rằng một mẫu nhiễu cụ thể có ảnh hưởng lạ đến quyết định phân loại hình ảnh, cụ thể là bạn có thể thực hiện một sửa đổi nhỏ cho hình ảnh đầu vào và làm cho bộ phân loại nghĩ rằng kết quả là một con chó. Lưu ý rằng hình ảnh gốc, cơ bản vẫn rõ ràng: trong mọi trường hợp, con người sẽ không bị nhầm lẫn khi nghĩ rằng bất kỳ hình ảnh không phải là chó là chó. nghịch cảnh

Đây là một ví dụ thứ hai từ một bài báo kinh điển hơn, " GIẢI THÍCH VÀ GIẢI QUYẾT VẤN ĐỀ TUYỆT VỜI " của Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy. Tiếng ồn được thêm vào hoàn toàn không thể phân biệt được trong hình ảnh thu được, tuy nhiên kết quả được phân loại rất tự tin là kết quả sai, một con vượn thay vì gấu trúc. Trong trường hợp này, ít nhất, có ít nhất một sự tương đồng vượt qua giữa hai lớp, vì vượn và gấu trúc ít nhất là hơi giống nhau về mặt sinh học và thẩm mỹ theo nghĩa rộng nhất. gấu trúc

Ví dụ thứ ba này được lấy từ " Phát hiện các ví dụ đối nghịch có thể khái quát hóa dựa trên sự không phù hợp với quyết định mô hình sinh học " của João Monteiro, Zahid Akhtar và Tiago H. Falk. Nó xác định rằng mô hình nhiễu có thể không thể phân biệt được với con người nhưng vẫn gây nhầm lẫn cho bộ phân loại.không thể phân biệt

Để tham khảo, Mudpuppy là một loài động vật có màu sẫm với bốn chi và đuôi, vì vậy nó không thực sự giống với một con cá vàng. bùn

  1. Tôi chỉ tìm thấy bài báo này ngày hôm nay. Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus. " Tính chất hấp dẫn của mạng lưới thần kinh ". Bản tóm tắt bao gồm trích dẫn hấp dẫn này:

Đầu tiên, chúng tôi thấy rằng không có sự phân biệt giữa các đơn vị cấp cao riêng lẻ và các tổ hợp tuyến tính ngẫu nhiên của các đơn vị cấp cao, theo các phương pháp phân tích đơn vị khác nhau. Nó gợi ý rằng đó là không gian, chứ không phải là các đơn vị riêng lẻ, chứa thông tin ngữ nghĩa trong các lớp cao của mạng lưới thần kinh.

Vì vậy, thay vì có 'trình phát hiện tính năng' ở các cấp cao hơn, các nút chỉ đại diện cho tọa độ trong một không gian tính năng mà mạng sử dụng để mô hình hóa dữ liệu.


2
Điểm tốt. Nhưng lưu ý rằng ngay cả trong các mô hình đơn giản nhất (logistic, cây quyết định), điều tối nghĩa là tại sao bất kỳ hệ số / ngưỡng cụ thể nào là như vậy (nhưng đó không phải là khả năng diễn giải giống như tôi đã hỏi). Không hoàn toàn không liên quan, có bất kỳ nghiên cứu / ví dụ đối nghịch tốt nào cho ngôn ngữ / RNNs / LSTM không?
Mitch

7
Tôi cũng sẽ chỉ ra rằng ngay cả những mô hình đơn giản như hồi quy logistic cũng dễ bị tấn công bởi các cuộc tấn công bất lợi. Trong thực tế, Goodfellow et. al. chỉ ra rằng đó là những mô hình nông cạn thiếu khả năng chống lại các cuộc tấn công như vậy. Tuy nhiên, chúng tôi vẫn tuyên bố có thể giải thích hồi quy logistic.
shimao

2
câu trả lời tốt, ngoại trừ điểm 3 đó là tranh luận vì hai lý do. 1) Rất hiếm khi trường hợp một hình ảnh đối nghịch là ", đối với một con người, không thể phân biệt được với một hình ảnh không thay đổi", trừ khi con người đó bị suy giảm thị lực nghiêm trọng. Gần như luôn luôn bạn có thể nhận thấy rằng hình ảnh có một số mẫu nhiễu được thêm vào, đặc biệt là ở hậu cảnh, về mặt thẩm mỹ giống như cái gọi là nhiễu JPEG (chỉ về mặt trực quan: các thuộc tính thống kê thực tế của nhiễu loạn là khác nhau). Điều đáng ngạc nhiên là không phải là trình phân loại không chắc chắn liệu đó có phải là một con mèo trung thực hơn là, nói rằng, 1 /
DeltaIV

2
2 / hình ảnh, nhưng đó gần như chắc chắn rằng đó là một chiếc xe buýt. 2) Các ví dụ đối nghịch liên quan đến khả năng diễn giải như thế nào? Các mô hình tuyến tính, mô hình tuyến tính tổng quát và cây quyết định cũng dễ bị ảnh hưởng bởi các ví dụ đối nghịch. Thật sự dễ dàng hơn để tìm một ví dụ đối nghịch đánh lừa hồi quy logistic, chứ không phải là một ví dụ đánh lừa ResNet. Mặc dù vậy, chúng ta thường coi (G) LM là mô hình có thể hiểu được, vì vậy tôi sẽ không liên kết sự tồn tại của các ví dụ đối nghịch với khả năng diễn giải của một mô hình.
DeltaIV

3
@DeltaIV vấn đề không phải là bạn không thể nhận thấy tiếng ồn. Mỗi jpeg đã bị xuống cấp quá nhiều có tiếng ồn. Vấn đề là tiếng ồn có thể bị thao túng để làm cho DNN làm những điều điên rồ, những điều không có ý nghĩa đối với người quan sát con người ngay cả khi có thể nhìn thấy tiếng ồn.
Hồng Ooi

13

Các lớp không ánh xạ vào các tính năng trừu tượng liên tiếp rõ ràng như chúng ta muốn. Một cách tốt để thấy điều này là so sánh hai kiến ​​trúc rất phổ biến.

VGG16 bao gồm nhiều lớp chập xếp chồng lên nhau với lớp gộp đôi khi - một kiến ​​trúc rất truyền thống.

Kể từ đó, mọi người đã chuyển sang thiết kế các kiến ​​trúc còn lại, trong đó mỗi lớp được kết nối với không chỉ lớp trước mà còn một (hoặc có thể nhiều hơn) các lớp xa hơn trong mô hình. ResNet là một trong những người đầu tiên làm điều này và có khoảng 100 lớp, tùy thuộc vào biến thể bạn sử dụng.

Mặc dù VGG16 và các mạng tương tự có các lớp hoạt động theo cách dễ hiểu hơn hoặc ít hơn - học các tính năng cấp cao hơn và cao hơn, ResNets không làm điều này. Thay vào đó, mọi người đã đề xuất rằng họ sẽ tiếp tục tinh chỉnh các tính năng để làm cho chúng chính xác hơn hoặc chúng chỉ là một loạt các mạng nông được ngụy trang , không phù hợp với "quan điểm truyền thống" về những gì các mô hình sâu học được.

Trong khi ResNet và các kiến ​​trúc tương tự vượt trội hơn VGG trong phân loại hình ảnh và phát hiện đối tượng, dường như có một số ứng dụng mà hệ thống phân cấp tính năng từ dưới lên đơn giản của VGG rất quan trọng. Xem ở đây để thảo luận tốt.

Vì vậy, do các kiến ​​trúc hiện đại hơn dường như không còn phù hợp với bức tranh nữa, tôi sẽ nói rằng chúng ta không thể nói rằng CNN có thể hiểu được.


Có lẽ cấu trúc liên kết hoàn toàn chưa được xác định / không được ký kết của mạng DL sẽ là một tập hợp thứ tự ngẫu nhiên lớn, nhập các cảm biến và xuất ra chức năng mong muốn (nghĩa là không cố gắng phân lớp, hãy để đào tạo tìm ra nó). Các nút ở đây sẽ rất khó hiểu. Nhưng điều đó không có nghĩa là một cấu trúc liên kết được thiết kế càng nhiều thì nó càng có khả năng diễn giải?
Mitch

3
@Mitch Một số kiến ​​trúc gần đây như Densenet dường như đang dần dần tiến đến giới hạn của việc mọi lớp được kết nối với mọi lớp khác - giống như "mạng không được ký" của bạn. Nhưng chắc chắn, ResNet và Densenet có thiết kế tinh vi hơn VGG16, nhưng người ta có thể nói rằng chúng ít dễ hiểu hơn - vì vậy, tôi không nghĩ rằng thiết kế nhiều hơn có nghĩa là dễ hiểu hơn. Có thể, kết nối sperer có nghĩa là dễ hiểu hơn.
shimao

7

Chủ đề của luận án tiến sĩ của tôi là tiết lộ các thuộc tính hộp đen của các mạng thần kinh, cụ thể là các mạng thần kinh chuyển tiếp thức ăn, với một hoặc hai lớp ẩn.

Tôi sẽ đưa ra thách thức để giải thích cho mọi người về các trọng số và thuật ngữ thiên vị có nghĩa là gì, trong một mạng lưới thần kinh chuyển tiếp một lớp. Hai quan điểm khác nhau sẽ được giải quyết: một quan điểm tham số và một quan điểm xác suất.

xinput=αx+βαβxinput(0,1)

  • 01
  • vv7

Việc thể hiện dữ liệu đầu vào của bạn là bắt buộc để có thể diễn giải kích thước (giá trị tuyệt đối) của các trọng số trong lớp đầu vào.

Ý nghĩa tham số:

  • 0
  • trọng số từ một nút ẩn đến một nút đầu ra chỉ ra rằng sự khuếch đại có trọng số của các biến đầu vào theo nghĩa tuyệt đối được khuếch đại nhất bởi nơron ẩn đó, chúng thúc đẩy hoặc làm giảm nút đầu ra cụ thể. Dấu hiệu của trọng lượng cho thấy sự thăng tiến (tích cực) hoặc ức chế (tiêu cực).
  • 132
  • β

1iltsil1Δj,k=∣wi,jwi,kijk

Các nút ẩn quan trọng hơn dành cho một nút đầu ra (nói về tần số, qua tập huấn luyện), trong đó 'trọng số đầu vào lần tần số đầu vào' là quan trọng nhất? Sau đó, chúng tôi kết thúc về tầm quan trọng của các tham số của mạng nơ ron chuyển tiếp.

Giải thích xác suất:

xinput

Trường hợp cá nhân - mô hình

xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]hoặc bất kỳ ngày nào khác trong tuần) và kết quả rất có thể sẽ thay đổi, sau đó biến liệt kê đó có ảnh hưởng tiềm năng đến kết quả của phân loại.

xinputxinputE(xinputxinput)xinputxinput

Nghiêng sâu - và ý nghĩa của các tham số NN

Khi áp dụng vào tầm nhìn máy tính, các mạng lưới thần kinh đã cho thấy sự tiến bộ rõ rệt trong thập kỷ qua. Các mạng lưới thần kinh tích chập được LeCunn giới thiệu vào năm 1989 đã hóa ra cuối cùng thực hiện rất tốt về mặt nhận dạng hình ảnh. Nó đã được báo cáo rằng họ có thể vượt trội hơn hầu hết các phương pháp nhận dạng dựa trên máy tính khác.

Các đặc tính nổi bật thú vị xuất hiện khi các mạng nơ ron tích chập đang được huấn luyện để nhận dạng đối tượng. Lớp đầu tiên của các nút ẩn đại diện cho các trình phát hiện tính năng cấp thấp, tương tự như các toán tử không gian tỷ lệ T. Lindeberg, Phát hiện tính năng với Chọn tỷ lệ tự động, 1998 . Các nhà khai thác không gian quy mô phát hiện

  • dòng,
  • góc,
  • Nút giao

và một số tính năng hình ảnh cơ bản khác.

Điều thú vị hơn nữa là thực tế là các tế bào thần kinh tri giác trong não của động vật có vú đã được chứng minh giống với cách làm việc này trong các bước đầu tiên của quá trình xử lý hình ảnh (sinh học). Vì vậy, với CNNs, cộng đồng khoa học đang tiến gần đến những gì làm cho nhận thức của con người trở nên phi thường. Điều này làm cho nó rất đáng để theo đuổi dòng nghiên cứu này hơn nữa.


Điều này thật thú vị - không có vẻ như nó sẽ cung cấp nhiều khả năng diễn giải trong trường hợp các tính năng tương quan?
khol

Vallue E (.) Dự kiến ​​cũng được gọi là trung bình của phân phối có điều kiện, x_input cho x_-input, tất cả các biến khác. Do đó, mối tương quan được kết hợp đầy đủ vào khái niệm ảnh hưởng dự kiến ​​này. Lưu ý rằng tính độc lập xác suất có định nghĩa rộng hơn 'tương quan' - cái sau chủ yếu được xác định cho dữ liệu phân tán Gaussian.
Match Maker EE

Tốt đẹp. Đây có phải là một sự khái quát hóa của một sự giải thích về hồi quy logistic cho một tập hợp các mô hình hồi quy xếp chồng lên nhau, một mô hình tiếp theo?
Mitch

Một tập hợp con của các nút ẩn có thể hoạt động như một logic 'HOẶC' cho một nơ ron đầu ra, hoặc giống như một logic 'VÀ'. HOẶC xảy ra khi một kích hoạt nút ẩn đủ để khiến nơ ron đầu ra trở nên gần 1. VÀ xảy ra khi chỉ một tổng số kích hoạt nút ẩn có thể khiến kích hoạt nút đầu ra trở nên gần với 1. Cho dù nhiều 'OR' trở lên ' AND ', điều đó phụ thuộc vào vectơ trọng lượng được đào tạo của' quạt trong ', vào nút đầu ra.
Match Maker EE
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.