Làm cách nào để sử dụng GAN để trích xuất tính năng không giám sát từ hình ảnh?


10

Tôi đã hiểu cách GAN hoạt động trong khi hai mạng (chung chung và phân biệt đối xử) cạnh tranh với nhau. Tôi đã xây dựng một DCGAN (GAN với bộ phân biệt đối xứng và bộ tạo khử tích chập) hiện tạo thành công các chữ số viết tay tương tự như trong bộ dữ liệu của MNIST.

Tôi đã đọc rất nhiều về các ứng dụng của GAN để trích xuất các tính năng từ hình ảnh. Làm cách nào có thể sử dụng mô hình GAN được đào tạo của tôi (trên tập dữ liệu của MNIST) để trích xuất tính năng từ hình ảnh người viết tay viết tay của MNIST?


Để trích xuất tính năng, tôi nhận kích thước tính năng là 128 * 120 (tức là 64 + 32 + 16 + 8) = 15360. Tôi chắc chắn rằng tôi đang thiếu một cái gì đó. Tôi có một câu hỏi khác liên quan đến việc chọn vector tính năng. Tôi có nên xem xét trọng lượng (conv2d + batchnorm + kích hoạt) hay chỉ trọng lượng của conv2d trong quá trình trích xuất tính năng?
Đập Tanmoy

Câu trả lời:


4

Thông thường để trích xuất các tính năng, bạn có thể sử dụng lớp trên cùng của mạng trước khi xuất. Trực giác là các tính năng này có thể phân tách tuyến tính vì lớp trên cùng chỉ là một hồi quy logistic.

Đối với GAN, bạn có thể sử dụng các tính năng từ trình phân biệt đối xử. Các tính năng này được cho là đưa ra xác suất nếu đầu vào đến từ tập dữ liệu huấn luyện, "hình ảnh thực". Trong bài báo DCGAN của Radford , họ sử dụng tất cả các lớp chập của bộ phân biệt và chạy một tính năng trích xuất lớp tổng hợp tối đa cho CIFAR-10.

Để đánh giá chất lượng của các đại diện mà DCGAN đã học cho các nhiệm vụ được giám sát, chúng tôi đào tạo trên Imagenet-1k và sau đó sử dụng các tính năng tích chập của bộ phân biệt từ tất cả các lớp, tạo tối đa cho mỗi lớp đại diện để tạo ra lưới không gian 4 × 4. Các tính năng này sau đó được làm phẳng và ghép nối để tạo thành một vectơ 28672 chiều và một bộ phân loại L2-SVM tuyến tính chính quy được đào tạo trên đầu chúng.


1

Câu trả lời của Kenny là chính xác - nếu bạn đang sử dụng tích chập D , đầu ra của các lớp trước khi dày đặc có thể đóng vai trò là các tính năng. Trực giác của tôi là nó sẽ hoạt động tốt hơn cho AC-GAN (hoặc các kiến ​​trúc tương tự, làm cho D phân loại đầu vào ngoài việc xác định xem đó là giả hay thật).

Có một cách tiếp cận được gọi là BiGAN , bổ sung một thành phần Encoder có thể ánh xạ các mẫu được tạo và huấn luyện thành phân phối tiềm ẩn z được sử dụng để "khởi tạo" trình tạo. Các tác giả cho thấy rằng nó có thể được sử dụng một cách hiệu quả như một bộ tính năng cho việc học chuyển và các nhiệm vụ khác.


0

vì GAN bao gồm hai phần - trình tạo và phân biệt đối xử, có hai cách để sử dụng GAN làm trình trích xuất tính năng:

  1. Cách tạo dựa trên trình bày như được trình bày bởi Mikhail Yurasov.
  2. Cách phân biệt dựa trên cách trình bày của Kenny.

Cách thứ hai gây tranh cãi hơn. Một số nghiên cứu [1] nghĩ rằng, theo trực giác, vì mục tiêu của người phân biệt đối xử là phân biệt các mẫu được tạo ra với các mẫu thực, nó sẽ chỉ tập trung vào sự khác biệt giữa hai loại mẫu này. Nhưng điều có ý nghĩa là sự khác biệt giữa các mẫu thực, đó là các mẫu được sử dụng bởi các tác vụ tiếp theo.

Tôi đã cố gắng nghiên cứu điều này và tôi thấy rằng tính năng được trích xuất có thể được phân thành hai không gian con trực giao . Không gian đầu tiên đóng góp cho nhiệm vụ phân biệt đối xử, trong khi không gian thứ hai là miễn phí. Như trong hầu hết các trường hợp, các tính năng được sử dụng để phân biệt các mẫu thực với các mẫu được tạo là nhiễu, không gian tính năng thứ hai sẽ không có tiếng ồn. Từ quan điểm này, mặc dù nhiệm vụ của bộ phân biệt sẽ không tập trung vào sự khác biệt giữa các mẫu thực, rất hữu ích cho các tác vụ tiếp theo, các tính năng không có tiếng ồn có trong không gian con thứ hai sẽ hoạt động.

[1] Jost Tobias Springenberg. Học tập không giám sát và bán giám sát với các mạng đối thủ phát sinh phân loại. arXiv: 1511.06390 [cs, stat], tháng 4 năm 2016. Bản in sẵn arXiv. arXiv: 1511.06390 [stat.ML]. Ithaca, NY: Thư viện Đại học Cornell.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.