"Tại sao chúng ta không học các thông số siêu?"
Đó là một câu hỏi tuyệt vời! Tôi sẽ cố gắng cung cấp một câu trả lời tổng quát hơn. Các TL; DR Câu trả lời là bạn chắc chắn có thể học siêu tham số, chỉ cần không phải từ cùng một dữ liệu. Đọc để trả lời chi tiết hơn một chút.
Một siêu tham số thường tương ứng với một cài đặt của thuật toán học, thay vì một trong các tham số của nó. Ví dụ, trong bối cảnh học tập sâu, điều này được minh họa bằng sự khác biệt giữa một số thứ như số lượng tế bào thần kinh trong một lớp cụ thể (một siêu tham số) và trọng lượng của một cạnh cụ thể (một tham số thông thường, có thể học được).
Tại sao có sự khác biệt ở nơi đầu tiên? Trường hợp điển hình để làm cho một tham số trở thành một siêu tham số là nó không phù hợp để tìm hiểu tham số đó từ tập huấn luyện. Ví dụ, vì luôn dễ dàng giảm lỗi đào tạo bằng cách thêm nhiều nơ-ron, làm cho số lượng nơ-ron trong một lớp trở thành một tham số thông thường sẽ luôn khuyến khích các mạng rất lớn, đó là điều chúng ta biết không phải lúc nào cũng mong muốn (vì quá mức).
Đối với câu hỏi của bạn, không phải là chúng ta không học siêu tham số. Đặt các thách thức tính toán sang một bên trong một phút, rất có thể tìm hiểu các giá trị tốt cho các siêu đường kính, và thậm chí có những trường hợp điều này là bắt buộc để có hiệu suất tốt; tất cả các cuộc thảo luận trong đoạn đầu tiên cho thấy theo định nghĩa, bạn không thể sử dụng cùng một dữ liệu cho nhiệm vụ này .
Sử dụng một phân chia dữ liệu khác (do đó tạo ra ba phần rời rạc: tập huấn luyện, tập xác thực và tập kiểm thử, những gì bạn có thể làm trong lý thuyết là quy trình tối ưu hóa lồng nhau sau : trong vòng ngoài, bạn cố gắng tìm các giá trị cho các siêu đường kính giảm thiểu tổn thất xác nhận và trong vòng lặp bên trong, bạn cố gắng tìm các giá trị cho các tham số thông thường giúp giảm thiểu tổn thất đào tạo .
Về mặt lý thuyết, điều này có thể rất tốn kém: mỗi bước của vòng lặp bên ngoài đòi hỏi phải giải quyết (cho đến khi hoàn thành hoặc ở gần đó) vòng lặp bên trong, thường nặng về mặt tính toán. Điều phức tạp hơn nữa là vấn đề bên ngoài không dễ dàng: đối với một, không gian tìm kiếm là rất lớn.
Có nhiều cách tiếp cận để khắc phục điều này bằng cách đơn giản hóa thiết lập ở trên (tìm kiếm lưới, tìm kiếm ngẫu nhiên hoặc tối ưu hóa siêu tham số dựa trên mô hình), nhưng giải thích những điều này vượt quá phạm vi câu hỏi của bạn. Như bài viết mà bạn đã tham khảo cũng chứng minh, thực tế rằng đây là một thủ tục tốn kém thường có nghĩa là các nhà nghiên cứu chỉ đơn giản bỏ qua nó hoặc thử rất ít cài đặt thủ công, cuối cùng giải quyết vấn đề tốt nhất (một lần nữa, theo bộ xác nhận). Đối với câu hỏi ban đầu của bạn, tôi lập luận rằng - trong khi rất đơn giản và giả tạo - đây vẫn là một hình thức "học tập".