Chúng tôi có thể tạo tập dữ liệu khổng lồ với Mạng đối thủ tổng hợp không


14

Tôi đang xử lý một vấn đề trong đó tôi không thể tìm thấy đủ dữ liệu (hình ảnh) để cung cấp cho mạng lưới thần kinh sâu của mình để đào tạo.

Tôi đã được truyền cảm hứng rất nhiều từ bài viết Tổng hợp về văn bản đối nghịch hình ảnh được xuất bản bởi Scott Reed et al. trên Mạng đối thủ tạo.

Tôi tò mò muốn biết rằng, tôi có thể sử dụng tập dữ liệu nhỏ có sẵn làm đầu vào cho mô hình GAN và tạo một tập dữ liệu lớn hơn nhiều để xử lý các mô hình mạng sâu hơn không?

Nó sẽ đủ tốt chứ?


Chúng tôi có thể sử dụng GAN cho các bộ dữ liệu không phải hình ảnh không?
Mohamed EL-KADDOURY

@ MohamedEL-KADDOURY, vâng, với âm thanh arxiv.org/abs/1802.04208 , với văn bản arxiv.org/abs/1801.07736, v.v.
Alwyn Mathew

Câu trả lời:


9

Điều này không thể thêm nhiều hơn những nỗ lực thu thập dữ liệu trực tiếp của bạn.

Chất lượng của các đầu ra GAN hiện tại (tính đến năm 2017) sẽ không đủ cao. Các hình ảnh do GAN tạo ra thường nhỏ và có thể có các chi tiết bất thường / mơ hồ và các biến dạng kỳ lạ. Trong bài báo mà bạn liên kết, các hình ảnh được hệ thống tạo ra từ một câu có các khối màu đáng tin cậy được đưa ra cho chủ đề, nhưng không có câu mồi cho bạn, những gì bạn mong đợi hầu hết chúng không thể nhận ra như bất kỳ chủ đề cụ thể nào .

Các GAN với mục đích ít tham vọng hơn là tạo ra hình ảnh từ các câu (bất chấp sự chỉ trích của tôi ở trên, một IMO kỳ công thực sự đáng chú ý) sẽ tạo ra gần hơn với hình ảnh thực tế. Nhưng phạm vi của chúng sẽ ít hơn và có thể không bao gồm loại hình ảnh mong muốn của bạn. Ngoài ra, thông thường kích thước đầu ra là nhỏ, ví dụ 64x64 hoặc 128x128 *, và vẫn còn đủ các biến dạng và sự mơ hồ mà các bức ảnh chân thực mặt đất ban đầu sẽ được ưa chuộng hơn nhiều.

GAN bị giới hạn bởi thư viện đào tạo có sẵn - nó sẽ không hoạt động tốt nếu bạn cố gắng tạo hình ảnh bên ngoài phạm vi dữ liệu đào tạo của nó. Các kết quả thể hiện trong tài liệu nghiên cứu tất nhiên tập trung vào miền được cung cấp bởi dữ liệu đào tạo. Nhưng bạn không thể đưa bất kỳ câu nào vào mô hình này và mong đợi một kết quả sẽ hữu ích ở nơi khác.

Nếu bạn tìm thấy một GAN đã được đào tạo về một bộ dữ liệu phù hợp cho vấn đề của bạn, thì rất có thể bạn nên cố gắng tìm nguồn dữ liệu tương tự trực tiếp cho dự án của mình.

Nếu bạn đang gặp vấn đề với dữ liệu thực tế hạn chế, thì có lẽ cách tiếp cận tốt hơn để sử dụng GAN sẽ là sử dụng trình phân loại được đào tạo trước như VGG-19 hoặc Inception v5, thay thế một vài lớp được kết nối đầy đủ cuối cùng và ổn điều chỉnh nó trên dữ liệu của bạn. Dưới đây là một ví dụ về việc sử dụng thư viện Keras trong Python - các ví dụ khác có thể được tìm thấy với các tìm kiếm như "tinh chỉnh phân loại hình ảnh CNN".


* GAN hiện đại đã tốt hơn kể từ khi tôi đăng câu trả lời này. Một nhóm nghiên cứu tại Nvidia đã thành công đáng kể khi tạo ra những bức ảnh chân thực 1024x1024 . Tuy nhiên, điều này không thay đổi các điểm khác trong câu trả lời của tôi. GAN không phải là nguồn hình ảnh đáng tin cậy cho các nhiệm vụ phân loại hình ảnh, ngoại trừ có thể cho các nhiệm vụ phụ của bất cứ điều gì GAN đã được đào tạo và có thể tạo điều kiện (hoặc có thể tầm thường hơn, để cung cấp dữ liệu nguồn cho các danh mục "khác" trong phân loại).


3

Tôi có cùng một vấn đề với một DNN mà tôi hiện đang xây dựng. Lấy tập dữ liệu của tôi và tổng hợp dữ liệu mới bằng GAN có vẻ là một ý tưởng tuyệt vời. Nhưng bản thân GAN sẽ chỉ học cách xuất hình ảnh có cùng phương sai hình ảnh và độ lệch chuẩn như đã học trong tập huấn luyện. Vì vậy, dữ liệu mới được tạo của bạn sẽ chỉ đại diện cho nhiều hoán vị của cùng một phân phối mẫu. Điều này sẽ giúp NN của bạn đào tạo tốt hơn trên cùng một phân phối, do đó nó có thể dẫn đến đào tạo nhiều hơn.


3

Chỉ từ góc độ lý thuyết thuần túy, điều này là không thể.

Bất kỳ tập dữ liệu đào tạo nào cũng thể hiện một lượng thông tin nhất định về cấu trúc của một không gian nhất định. Nếu bạn huấn luyện GAN trên tập dữ liệu này, nó sẽ chỉ học được từ thông tin được đại diện bởi tập dữ liệu đó. Dữ liệu được tổng hợp bởi GAN không bao giờ có thể từ một không gian lớn hơn dữ liệu gốc, vì lý do đơn giản: thông tin này sẽ được lấy từ đâu? Nếu nó không có trong tập dữ liệu gốc, thì nó cũng không thể nằm trong dữ liệu tổng hợp từ GAN.

Nếu bạn huấn luyện một mạng thần kinh để hội tụ trên một tập dữ liệu, thì mạng thần kinh đó sẽ học bất kỳ cấu trúc nào mà tập dữ liệu chứa. Bất kỳ dữ liệu đào tạo nhân tạo nào được tổng hợp bởi GAN sẽ không thêm thông tin mới. Ý tưởng đó nên được thẳng tiến.


2

Trên thực tế có thể, để tăng một Bộ dữ liệu nhỏ bằng GAN để cải thiện nó và nó cũng sẽ tăng Hiệu suất của Mạng phân loại như bạn có thể đọc tại đây https://arxiv.org/pdf/1804.01229.pdf . GAN có khả năng học tập, ví dụ như các hình dạng trung gian không liên quan đến ngày tháng ban đầu nhưng vẫn hợp lệ. Vì vậy, hình ảnh tổng hợp thực sự có thể cải thiện kích thước tập dữ liệu và cải thiện độ chính xác phân loại CNN.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.