Khi bạn đang cố gắng điều chỉnh các mô hình cho một tập dữ liệu lớn, lời khuyên phổ biến là phân vùng dữ liệu thành ba phần: đào tạo, xác nhận và tập dữ liệu thử nghiệm.
Điều này là do các mô hình thường có ba "mức" tham số: "tham số" đầu tiên là lớp mô hình (ví dụ: SVM, mạng thần kinh, rừng ngẫu nhiên), bộ tham số thứ hai là tham số "chính quy" hoặc "siêu đường kính" ( ví dụ: hệ số hình phạt lasso, lựa chọn hạt nhân, cấu trúc mạng thần kinh) và bộ thứ ba là những gì thường được coi là "tham số" (ví dụ: hệ số cho các hiệp phương sai.)
Đưa ra một lớp mô hình và một sự lựa chọn của siêu đường kính, người ta chọn các tham số bằng cách chọn các tham số giúp giảm thiểu lỗi trên tập huấn luyện. Đưa ra một lớp mô hình, người ta điều chỉnh các siêu đường kính bằng cách giảm thiểu lỗi trên tập xác thực. Người ta chọn lớp mô hình theo hiệu suất trên tập kiểm tra.
Nhưng tại sao không có nhiều phân vùng hơn? Thông thường, người ta có thể chia các siêu đường kính thành hai nhóm và sử dụng "xác nhận 1" để khớp với thứ nhất và "xác nhận 2" để phù hợp với nhóm thứ hai. Hoặc người ta thậm chí có thể coi kích thước của dữ liệu huấn luyện / phân tách dữ liệu xác nhận là một siêu tham số cần điều chỉnh.
Đây đã là một thực tế phổ biến trong một số ứng dụng? Có bất kỳ công việc lý thuyết về phân vùng dữ liệu tối ưu?