Đây là một chủ đề thảo luận (từ tháng 7 năm 2013) chỉ ra rằng có thể có một số vấn đề với nó, nhưng nó có thể được thực hiện.
Ağlar Gülçehre (từ phòng thí nghiệm của Yoshua Bengio) cho biết ông đã sử dụng thành công kỹ thuật sau đây trong các vấn đề kiến thức: Tầm quan trọng của thông tin trước để tối ưu hóa :
huấn luyện DAE đầu tiên như bình thường, nhưng với bộ chỉnh lưu trong lớp ẩn:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
giảm thiểu mất entropy chéo hoặc mất MSE, so sánh g1 (f1 (hỏng (x))) và x. sigmoid là tùy chọn tùy thuộc vào dữ liệu.
huấn luyện DAE thứ 2 với tiếng ồn được thêm vào trước bộ chỉnh lưu F1 và sử dụng các đơn vị tái cấu trúc phần mềm bị mất MSE:
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
tối thiểu hóa∥f1(x)−g2(f2(rectifier(corrupt(a1(x)))))∥2+λ1∥W∥1+λ2∥W∥2
Xavier Glorot, cũng từ phòng thí nghiệm Bengio, cho biết ông đã làm như vậy trừ thay thế với một phạt "trên các giá trị kích hoạt" (có lẽ là ?) Ở cả hai miền Thích ứng cho Phân loại tình cảm quy mô lớn: Cách tiếp cận học tập sâu (ICML 2011) và trong các mạng thần kinh chỉnh lưu thưa thớt sâu (AISTATS 2011).∥W∥1L1∥g2(…)∥1