Mạng lưới đối thủ rộng rãi được giới thiệu bởi Jürgen Schmidhuber?


32

Tôi đọc trên https://en.wikipedia.org/wiki/Generative_adversarial_networks :

[Mạng đối nghịch tạo ra] đã được giới thiệu bởi Ian Goodfellow et al vào năm 2014.

nhưng Jurgen Schmidhuber tuyên bố đã thực hiện công việc tương tự trước đó theo hướng đó (ví dụ, đã có một số cuộc tranh luận tại NIPS 2016 trong mạng gây tranh cãi sinh sản hướng dẫn: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Hội nghị / Thần kinh-Thông tin-Xử lý-Hệ thống-Hội nghị-NIPS-2016 / Generative-Adversarial-Networks xem 1h03 phút).

Có phải ý tưởng đằng sau các mạng đối nghịch thế hệ lần đầu tiên được giới thiệu công khai bởi Jürgen Schmidhuber? Nếu không, ý tưởng của Jürgen Schmidhuber tương tự như thế nào?


5
Thảo luận có liên quan trên reddit ở đây , đặc biệt là bình luận này .
Dougal

Một bản tóm tắt ngắn gọn về sự cố của NIPS có thể được đọc ở đây: Beamandrew.github.io/deeplearning/2016/12/12/nips-2016.html
amoeba nói Phục hồi lại

1
Phần lịch sử của trang Wikipedia đã được cập nhật và tôi nghĩ rằng nó chứa tất cả các tài liệu tham khảo có liên quan và các kết nối của chúng với nhau ngay bây giờ. Tôi nghĩ rằng điều này thực sự khá công bằng và đầy đủ.
Albert

@Albert cảm ơn đã cập nhật!
Franck Dernoncourt

Câu trả lời:


50

Tôi tự công bố ý tưởng cơ bản về một loạt các mạng đối nghịch (GANs) mang tính quyết định trong một bài đăng trên blog năm 2010 (archive.org) . Tôi đã tìm kiếm nhưng không thể tìm thấy bất cứ thứ gì tương tự ở bất cứ đâu và không có thời gian để thử thực hiện nó. Tôi đã không và vẫn không phải là một nhà nghiên cứu mạng thần kinh và không có kết nối trong lĩnh vực này. Tôi sẽ sao chép-dán bài đăng blog ở đây:

2010/02/24

Một phương pháp để đào tạo các mạng thần kinh nhân tạo để tạo ra dữ liệu bị thiếu trong bối cảnh biến đổi. Vì ý tưởng này rất khó để đặt trong một câu, tôi sẽ sử dụng một ví dụ:

Một hình ảnh có thể bị thiếu pixel (giả sử, dưới một vết nhòe). Làm thế nào người ta có thể khôi phục các pixel bị thiếu, chỉ biết các pixel xung quanh? Một cách tiếp cận sẽ là một mạng nơ ron "máy phát", với các pixel xung quanh làm đầu vào, sẽ tạo ra các pixel bị thiếu.

Nhưng làm thế nào để đào tạo một mạng lưới như vậy? Người ta không thể mong đợi mạng sẽ tạo ra chính xác các pixel bị thiếu. Ví dụ, tưởng tượng rằng dữ liệu bị thiếu là một mảng cỏ. Người ta có thể dạy mạng với một loạt các hình ảnh của bãi cỏ, với các phần bị loại bỏ. Giáo viên biết dữ liệu bị thiếu và có thể chấm điểm mạng theo chênh lệch bình phương trung bình gốc (RMSD) giữa bản vá cỏ được tạo và dữ liệu gốc. Vấn đề là nếu máy phát gặp một hình ảnh không phải là một phần của tập huấn luyện, mạng lưới thần kinh sẽ không thể đặt tất cả các lá, đặc biệt là ở giữa miếng vá, ở đúng vị trí. Lỗi RMSD thấp nhất có lẽ sẽ xảy ra do mạng lấp đầy khu vực giữa của miếng vá với màu đơn sắc là trung bình của màu của pixel trong hình ảnh điển hình của cỏ. Nếu mạng cố gắng tạo ra cỏ có vẻ thuyết phục đối với con người và như vậy hoàn thành mục đích của nó, sẽ có một hình phạt đáng tiếc theo số liệu RMSD.

Ý tưởng của tôi là thế này (xem hình bên dưới): Huấn luyện đồng thời với trình tạo một mạng phân loại được đưa ra, theo thứ tự ngẫu nhiên hoặc xen kẽ, dữ liệu được tạo và dữ liệu gốc. Sau đó, bộ phân loại phải đoán, trong bối cảnh bối cảnh hình ảnh xung quanh, liệu đầu vào là gốc (1) hay được tạo (0). Mạng máy phát đồng thời đang cố gắng để có được điểm cao (1) từ bộ phân loại. Kết quả, hy vọng, là cả hai mạng bắt đầu thực sự đơn giản, và tiến tới việc tạo và nhận ra các tính năng ngày càng tiên tiến hơn, tiếp cận và có thể đánh bại khả năng của con người để phân biệt giữa dữ liệu được tạo và dữ liệu gốc. Nếu nhiều mẫu đào tạo được xem xét cho mỗi điểm, thì RMSD là số liệu lỗi chính xác để sử dụng,

nhập mô tả hình ảnh ở đây
Thiết lập đào tạo mạng lưới thần kinh nhân tạo

Khi tôi đề cập đến RMSD ở cuối, tôi có nghĩa là số liệu lỗi cho "ước tính xác suất", không phải giá trị pixel.

Ban đầu, tôi bắt đầu xem xét việc sử dụng các mạng thần kinh vào năm 2000 (bài comp.dsp) để tạo ra các tần số cao bị thiếu cho âm thanh kỹ thuật số được lấy mẫu (được lấy mẫu lại với tần số lấy mẫu cao hơn), theo cách có thể thuyết phục hơn là chính xác. Năm 2001 tôi đã thu thập một thư viện âm thanh để đào tạo. Dưới đây là các phần của nhật ký Trò chuyện Rơle Internet (IRC) của EFNet từ ngày 20 tháng 1 năm 2006, trong đó tôi (yehar) nói về ý tưởng với một người dùng khác (_Beta):

[22:18] <yehar> vấn đề với các mẫu là nếu bạn chưa có thứ gì đó "ở đó" thì bạn có thể làm gì nếu bạn lấy mẫu ...
[22:22] <yehar> tôi đã từng thu thập được một số tiền lớn thư viện âm thanh để tôi có thể phát triển một thuật toán "thông minh" để giải quyết vấn đề chính xác này
[22:22] <yehar> tôi đã sử dụng mạng lưới thần kinh
[22:22] <yehar> nhưng tôi đã không hoàn thành công việc: - D
[22:23] <_Beta> vấn đề với các mạng thần kinh là bạn phải có một số cách đo lường mức độ tốt của kết quả
[22:24] <yehar> beta: tôi có ý tưởng này rằng bạn có thể phát triển một "người nghe" tại cùng lúc với việc bạn phát triển "trình tạo âm thanh thông minh"
[22:26] <yehar> beta: và người nghe này sẽ học cách phát hiện khi nó nghe một phổ được tạo ra hoặc phổ tự nhiên. và người tạo phát triển cùng một lúc để cố gắng phá vỡ sự phát hiện này

Vào khoảng giữa năm 2006 và 2010, một người bạn đã mời một chuyên gia xem xét ý tưởng của tôi và thảo luận với tôi. Họ nghĩ rằng điều đó thật thú vị, nhưng nói rằng việc đào tạo hai mạng không hiệu quả về mặt chi phí khi một mạng duy nhất có thể thực hiện công việc. Tôi không bao giờ chắc chắn liệu họ không có ý tưởng cốt lõi hay ngay lập tức họ thấy một cách để hình thành nó như một mạng duy nhất, có lẽ với một nút cổ chai ở đâu đó trong cấu trúc liên kết để tách nó thành hai phần. Đó là vào thời điểm mà tôi thậm chí còn không biết rằng backpropagation vẫn là phương pháp đào tạo thực tế (đã học được rằng làm video trong cơn sốt Deep Dream năm 2015). Trong những năm qua, tôi đã nói về ý tưởng của mình với một vài nhà khoa học dữ liệu và những người khác mà tôi nghĩ có thể quan tâm, nhưng phản hồi thì nhẹ.

Vào tháng 5 năm 2017, tôi đã thấy bài thuyết trình hướng dẫn của Ian Goodfellow trên YouTube [Mirror] , hoàn toàn làm nên ngày của tôi. Nó xuất hiện với tôi như một ý tưởng cơ bản tương tự, với những khác biệt như tôi hiện đang hiểu được nêu ra dưới đây, và công việc khó khăn đã được thực hiện để làm cho nó mang lại kết quả tốt. Ngoài ra, ông đã đưa ra một lý thuyết, hoặc dựa trên mọi thứ dựa trên một lý thuyết, tại sao nó nên hoạt động, trong khi tôi chưa bao giờ thực hiện bất kỳ phân tích chính thức nào về ý tưởng của mình. Bài thuyết trình của Goodfellow đã trả lời các câu hỏi mà tôi đã có và nhiều hơn nữa.

GAN của Goodfellow và các tiện ích mở rộng được đề xuất của anh ấy bao gồm nguồn tiếng ồn trong máy phát. Tôi chưa bao giờ nghĩ đến việc bao gồm một nguồn nhiễu mà thay vào đó là bối cảnh dữ liệu huấn luyện, kết hợp tốt hơn ý tưởng với GAN có điều kiện (cGAN) mà không có đầu vào vectơ nhiễu và với mô hình được điều chỉnh trên một phần dữ liệu. Sự hiểu biết hiện tại của tôi dựa trên Mathieu et al. Năm 2016 là không cần nguồn nhiễu cho kết quả hữu ích nếu có đủ độ biến thiên đầu vào. Sự khác biệt khác là GAN ​​của Goodfellow giảm thiểu khả năng đăng nhập. Sau đó, một hình vuông nhỏ nhất GAN (LSGAN) đã được giới thiệu ( Mao et al. 2017) phù hợp với đề xuất RMSD của tôi. Vì vậy, ý tưởng của tôi sẽ phù hợp với mạng đối nghịch tổng quát có điều kiện bình phương nhỏ nhất (cLSGAN) mà không có đầu vào vectơ nhiễu cho máy phát và với một phần dữ liệu làm đầu vào điều hòa. Một bộ tạo mẫu tổng hợp từ một xấp xỉ phân phối dữ liệu. Bây giờ tôi biết nếu và nghi ngờ rằng đầu vào ồn ào trong thế giới thực sẽ cho phép điều đó với ý tưởng của tôi, nhưng điều đó không có nghĩa là kết quả sẽ không hữu ích nếu nó không.

Sự khác biệt được đề cập ở trên là lý do chính khiến tôi tin rằng Goodfellow không biết hoặc nghe về ý tưởng của tôi. Một điều nữa là blog của tôi không có nội dung học máy nào khác, vì vậy nó sẽ được tiếp xúc rất hạn chế trong giới học máy.

Đó là một xung đột lợi ích khi một nhà phê bình gây áp lực lên một tác giả để trích dẫn công việc riêng của người đánh giá.


8
Tôi phải nói rằng, tôi rất ấn tượng. Dường như bài đăng trên blog của bạn cũng xứng đáng nhận được ý tưởng này, mặc dù Ian và nhóm có thể đã phát hiện ra nó một cách độc lập.
user2808118

2
Nếu bạn xuất bản tác phẩm của mình, bạn có thể đã trở thành người truyền cảm hứng cho cuộc cách mạng nghịch cảnh. KHÍ !!
user2808118

5
@ user2808118 Điều đó sẽ yêu cầu làm việc với nó, để tạo ra một số kết quả để xuất bản, không chỉ nghĩ về nó.
Olli Niemitalo

4
Tôi chào bạn hai lần: lần đầu tiên vì đã khám phá ra nó ít nhất 3 năm trước Goodfellow và lần thứ hai vì có trái tim lớn để đón nhận nó theo cách rất tích cực.
Nhà khoa học thất bại

19

Một câu trả lời từ Ian Goodfellow về Was Jürgen Schmidhuber có đúng không khi ông tuyên bố tín dụng cho GAN tại NIPS 2016? đăng vào 2017 / 03-21:

Chính xác, anh ta không đòi tín dụng cho GAN. Nó phức tạp hơn.

Bạn có thể thấy những gì anh ấy đã viết bằng lời của mình khi anh ấy là người đánh giá bài nộp NIPS 2014 trên GANs: Xuất đánh giá, thảo luận, phản hồi của tác giả và Meta-Reviews ( gương )

Anh ấy là người đánh giá đã yêu cầu chúng tôi đổi tên GAN thành Thủ tướng nghịch đảo.

Đây là bài báo mà ông tin rằng không được thừa nhận đầy đủ: http: // ftp: //ftp.idsia.ch/pub/juergen/factorial.pdf ( gương )

Tôi không thích rằng không có cách nào tốt để có những vấn đề như phán quyết này. Tôi đã liên lạc với các nhà tổ chức NIPS và hỏi liệu có cách nào để Jürgen nộp đơn khiếu nại về tôi không và có một ủy ban của đại diện NIPS phán xét xem ấn phẩm của tôi có đối xử bất công với anh ta không. Họ nói rằng không có quá trình như vậy có sẵn.

Cá nhân tôi không nghĩ rằng có bất kỳ mối liên hệ đáng kể nào giữa giảm thiểu dự đoán và GAN. Tôi chưa bao giờ có bất kỳ vấn đề nào khi thừa nhận các kết nối giữa GAN và các thuật toán khác thực sự có liên quan, như ước lượng tương phản nhiễu và tăng cường tự giám sát.

Jürgen và tôi dự định sẽ sớm viết một bài báo mô tả những điểm tương đồng và khác biệt giữa PM và GAN, giả sử chúng ta có thể đồng ý về những điều đó.


2
Thật không may, dường như không có một bài báo giữa hai sắp tới. :-(
ComputerSellectist

@ComputerSellectist yep vẫn đang chờ đợi, người khác có thể chăm sóc nó nếu không :-)
Franck Dernoncourt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.