Tôi tự công bố ý tưởng cơ bản về một loạt các mạng đối nghịch (GANs) mang tính quyết định trong một bài đăng trên blog năm 2010 (archive.org) . Tôi đã tìm kiếm nhưng không thể tìm thấy bất cứ thứ gì tương tự ở bất cứ đâu và không có thời gian để thử thực hiện nó. Tôi đã không và vẫn không phải là một nhà nghiên cứu mạng thần kinh và không có kết nối trong lĩnh vực này. Tôi sẽ sao chép-dán bài đăng blog ở đây:
2010/02/24
Một phương pháp để đào tạo các mạng thần kinh nhân tạo để tạo ra dữ liệu bị thiếu trong bối cảnh biến đổi. Vì ý tưởng này rất khó để đặt trong một câu, tôi sẽ sử dụng một ví dụ:
Một hình ảnh có thể bị thiếu pixel (giả sử, dưới một vết nhòe). Làm thế nào người ta có thể khôi phục các pixel bị thiếu, chỉ biết các pixel xung quanh? Một cách tiếp cận sẽ là một mạng nơ ron "máy phát", với các pixel xung quanh làm đầu vào, sẽ tạo ra các pixel bị thiếu.
Nhưng làm thế nào để đào tạo một mạng lưới như vậy? Người ta không thể mong đợi mạng sẽ tạo ra chính xác các pixel bị thiếu. Ví dụ, tưởng tượng rằng dữ liệu bị thiếu là một mảng cỏ. Người ta có thể dạy mạng với một loạt các hình ảnh của bãi cỏ, với các phần bị loại bỏ. Giáo viên biết dữ liệu bị thiếu và có thể chấm điểm mạng theo chênh lệch bình phương trung bình gốc (RMSD) giữa bản vá cỏ được tạo và dữ liệu gốc. Vấn đề là nếu máy phát gặp một hình ảnh không phải là một phần của tập huấn luyện, mạng lưới thần kinh sẽ không thể đặt tất cả các lá, đặc biệt là ở giữa miếng vá, ở đúng vị trí. Lỗi RMSD thấp nhất có lẽ sẽ xảy ra do mạng lấp đầy khu vực giữa của miếng vá với màu đơn sắc là trung bình của màu của pixel trong hình ảnh điển hình của cỏ. Nếu mạng cố gắng tạo ra cỏ có vẻ thuyết phục đối với con người và như vậy hoàn thành mục đích của nó, sẽ có một hình phạt đáng tiếc theo số liệu RMSD.
Ý tưởng của tôi là thế này (xem hình bên dưới): Huấn luyện đồng thời với trình tạo một mạng phân loại được đưa ra, theo thứ tự ngẫu nhiên hoặc xen kẽ, dữ liệu được tạo và dữ liệu gốc. Sau đó, bộ phân loại phải đoán, trong bối cảnh bối cảnh hình ảnh xung quanh, liệu đầu vào là gốc (1) hay được tạo (0). Mạng máy phát đồng thời đang cố gắng để có được điểm cao (1) từ bộ phân loại. Kết quả, hy vọng, là cả hai mạng bắt đầu thực sự đơn giản, và tiến tới việc tạo và nhận ra các tính năng ngày càng tiên tiến hơn, tiếp cận và có thể đánh bại khả năng của con người để phân biệt giữa dữ liệu được tạo và dữ liệu gốc. Nếu nhiều mẫu đào tạo được xem xét cho mỗi điểm, thì RMSD là số liệu lỗi chính xác để sử dụng,
Thiết lập đào tạo mạng lưới thần kinh nhân tạo
Khi tôi đề cập đến RMSD ở cuối, tôi có nghĩa là số liệu lỗi cho "ước tính xác suất", không phải giá trị pixel.
Ban đầu, tôi bắt đầu xem xét việc sử dụng các mạng thần kinh vào năm 2000 (bài comp.dsp) để tạo ra các tần số cao bị thiếu cho âm thanh kỹ thuật số được lấy mẫu (được lấy mẫu lại với tần số lấy mẫu cao hơn), theo cách có thể thuyết phục hơn là chính xác. Năm 2001 tôi đã thu thập một thư viện âm thanh để đào tạo. Dưới đây là các phần của nhật ký Trò chuyện Rơle Internet (IRC) của EFNet từ ngày 20 tháng 1 năm 2006, trong đó tôi (yehar) nói về ý tưởng với một người dùng khác (_Beta):
[22:18] <yehar> vấn đề với các mẫu là nếu bạn chưa có thứ gì đó "ở đó" thì bạn có thể làm gì nếu bạn lấy mẫu ...
[22:22] <yehar> tôi đã từng thu thập được một số tiền lớn thư viện âm thanh để tôi có thể phát triển một thuật toán "thông minh" để giải quyết vấn đề chính xác này
[22:22] <yehar> tôi đã sử dụng mạng lưới thần kinh
[22:22] <yehar> nhưng tôi đã không hoàn thành công việc: - D
[22:23] <_Beta> vấn đề với các mạng thần kinh là bạn phải có một số cách đo lường mức độ tốt của kết quả
[22:24] <yehar> beta: tôi có ý tưởng này rằng bạn có thể phát triển một "người nghe" tại cùng lúc với việc bạn phát triển "trình tạo âm thanh thông minh"
[22:26] <yehar> beta: và người nghe này sẽ học cách phát hiện khi nó nghe một phổ được tạo ra hoặc phổ tự nhiên. và người tạo phát triển cùng một lúc để cố gắng phá vỡ sự phát hiện này
Vào khoảng giữa năm 2006 và 2010, một người bạn đã mời một chuyên gia xem xét ý tưởng của tôi và thảo luận với tôi. Họ nghĩ rằng điều đó thật thú vị, nhưng nói rằng việc đào tạo hai mạng không hiệu quả về mặt chi phí khi một mạng duy nhất có thể thực hiện công việc. Tôi không bao giờ chắc chắn liệu họ không có ý tưởng cốt lõi hay ngay lập tức họ thấy một cách để hình thành nó như một mạng duy nhất, có lẽ với một nút cổ chai ở đâu đó trong cấu trúc liên kết để tách nó thành hai phần. Đó là vào thời điểm mà tôi thậm chí còn không biết rằng backpropagation vẫn là phương pháp đào tạo thực tế (đã học được rằng làm video trong cơn sốt Deep Dream năm 2015). Trong những năm qua, tôi đã nói về ý tưởng của mình với một vài nhà khoa học dữ liệu và những người khác mà tôi nghĩ có thể quan tâm, nhưng phản hồi thì nhẹ.
Vào tháng 5 năm 2017, tôi đã thấy bài thuyết trình hướng dẫn của Ian Goodfellow trên YouTube [Mirror] , hoàn toàn làm nên ngày của tôi. Nó xuất hiện với tôi như một ý tưởng cơ bản tương tự, với những khác biệt như tôi hiện đang hiểu được nêu ra dưới đây, và công việc khó khăn đã được thực hiện để làm cho nó mang lại kết quả tốt. Ngoài ra, ông đã đưa ra một lý thuyết, hoặc dựa trên mọi thứ dựa trên một lý thuyết, tại sao nó nên hoạt động, trong khi tôi chưa bao giờ thực hiện bất kỳ phân tích chính thức nào về ý tưởng của mình. Bài thuyết trình của Goodfellow đã trả lời các câu hỏi mà tôi đã có và nhiều hơn nữa.
GAN của Goodfellow và các tiện ích mở rộng được đề xuất của anh ấy bao gồm nguồn tiếng ồn trong máy phát. Tôi chưa bao giờ nghĩ đến việc bao gồm một nguồn nhiễu mà thay vào đó là bối cảnh dữ liệu huấn luyện, kết hợp tốt hơn ý tưởng với GAN có điều kiện (cGAN) mà không có đầu vào vectơ nhiễu và với mô hình được điều chỉnh trên một phần dữ liệu. Sự hiểu biết hiện tại của tôi dựa trên Mathieu et al. Năm 2016 là không cần nguồn nhiễu cho kết quả hữu ích nếu có đủ độ biến thiên đầu vào. Sự khác biệt khác là GAN của Goodfellow giảm thiểu khả năng đăng nhập. Sau đó, một hình vuông nhỏ nhất GAN (LSGAN) đã được giới thiệu ( Mao et al. 2017) phù hợp với đề xuất RMSD của tôi. Vì vậy, ý tưởng của tôi sẽ phù hợp với mạng đối nghịch tổng quát có điều kiện bình phương nhỏ nhất (cLSGAN) mà không có đầu vào vectơ nhiễu cho máy phát và với một phần dữ liệu làm đầu vào điều hòa. Một bộ tạo mẫu tổng hợp từ một xấp xỉ phân phối dữ liệu. Bây giờ tôi biết nếu và nghi ngờ rằng đầu vào ồn ào trong thế giới thực sẽ cho phép điều đó với ý tưởng của tôi, nhưng điều đó không có nghĩa là kết quả sẽ không hữu ích nếu nó không.
Sự khác biệt được đề cập ở trên là lý do chính khiến tôi tin rằng Goodfellow không biết hoặc nghe về ý tưởng của tôi. Một điều nữa là blog của tôi không có nội dung học máy nào khác, vì vậy nó sẽ được tiếp xúc rất hạn chế trong giới học máy.
Đó là một xung đột lợi ích khi một nhà phê bình gây áp lực lên một tác giả để trích dẫn công việc riêng của người đánh giá.