Bài viết trên GAN cho biết người phân biệt đối xử sử dụng gradient sau để huấn luyện:
Các giá trị được lấy mẫu, được chuyển qua bộ tạo để tạo các mẫu dữ liệu và sau đó bộ phân biệt được sao lưu bằng cách sử dụng các mẫu dữ liệu được tạo. Một khi trình tạo tạo dữ liệu, nó không đóng vai trò gì nữa trong việc đào tạo người phân biệt đối xử. Nói cách khác, trình tạo có thể được loại bỏ hoàn toàn khỏi số liệu bằng cách tạo ra các mẫu dữ liệu và sau đó chỉ làm việc với các mẫu.
Tôi hơi bối rối hơn về cách máy phát điện được đào tạo mặc dù. Nó sử dụng gradient sau:
Trong trường hợp này, người phân biệt đối xử là một phần của số liệu. Nó không thể được gỡ bỏ như trường hợp trước. Những thứ như bình phương tối thiểu hoặc khả năng đăng nhập trong các mô hình phân biệt đối xử thông thường có thể dễ dàng được phân biệt bởi vì chúng có một định nghĩa gần đúng, đẹp. Tuy nhiên, tôi hơi bối rối về cách bạn backpropogate khi số liệu phụ thuộc vào mạng thần kinh khác. Về cơ bản, bạn có gắn các đầu ra của máy phát điện vào các đầu vào của bộ phân biệt đối xử và sau đó coi toàn bộ mọi thứ giống như một mạng khổng lồ trong đó các trọng số trong phần phân biệt không đổi?
D_loss
vàG_loss
? Tối đa hóa không gian gì? IIUCD_real
vàD_fake
mỗi đợt là một đợt, vì vậy chúng tôi sẽ tối đa hóa theo đợt ??