Bối cảnh: Rất nhiều nghiên cứu hiện đại trong 4 năm qua (bài alexnet ) dường như đã tránh xa việc sử dụng sơ bộ tổng quát cho các mạng lưới thần kinh để đạt được kết quả phân loại hiện đại.
Ví dụ: các kết quả hàng đầu cho mnist ở đây chỉ bao gồm 2 bài viết của top 50 dường như đang sử dụng các mô hình thế hệ, cả hai đều là RBM. 48 bài báo chiến thắng khác là về các kiến trúc chuyển tiếp phân biệt đối xử khác nhau với nhiều nỗ lực hướng tới việc tìm kiếm các khởi tạo trọng lượng / tiểu thuyết tốt hơn và khác biệt so với sigmoid được sử dụng trong RBM và trong nhiều mạng thần kinh cũ.
Câu hỏi: Có bất kỳ lý do hiện đại nào để sử dụng Máy Boltzmann bị hạn chế nữa không?
Nếu không, có một sửa đổi thực tế nào mà người ta có thể áp dụng cho các kiến trúc chuyển tiếp nguồn cấp dữ liệu này để làm cho bất kỳ lớp nào của chúng có tính tổng quát không?
Động lực: Tôi hỏi bởi vì một số mô hình tôi thấy có sẵn, thường là các biến thể trên RBM, không nhất thiết phải có các đối tác phân biệt đối xử tương tự rõ ràng với các lớp / mô hình chung này và ngược lại. Ví dụ:
CRBM (mặc dù người ta có thể lập luận rằng CNN sử dụng kiến trúc chuyển tiếp nguồn cấp dữ liệu là kiến trúc tương tự phân biệt đối xử)
Ngoài ra, đây cũng rõ ràng là alexnet trước, từ năm 2010, 2011 và 2009 một cách trân trọng.