Tôi không biết nếu điều này đủ điều kiện là một nhận xét hoặc như một câu trả lời. Tôi đang đặt ở đây vì cảm thấy như một câu trả lời.
Trong xác thực chéo k-Fold, bạn đang phân vùng dữ liệu của mình thành các nhóm k. Nếu bạn đang bao gồm cả "những điều cơ bản" thì bạn sẽ chọn ngẫu nhiên các thành viên cho mỗi thùng k.
Khi tôi nói về dữ liệu, tôi nghĩ mỗi hàng là một mẫu và mỗi cột là một thứ nguyên. Tôi đã quen với việc sử dụng các phương pháp khác nhau để xác định tầm quan trọng của biến, tầm quan trọng của cột.
Điều gì sẽ xảy ra nếu bạn, như một bài tập suy nghĩ, rời khỏi đồng phục "sách giáo khoa" một cách ngẫu nhiên, và xác định những hàng nào là quan trọng? Có thể họ thông báo cho một biến duy nhất tại một thời điểm, nhưng có thể họ thông báo thêm. Có một số hàng ít quan trọng hơn những hàng khác? Có thể nhiều điểm là thông tin, có thể ít.
Biết tầm quan trọng của biến, có lẽ bạn có thể bin chúng theo mức độ quan trọng. Có lẽ bạn có thể làm một thùng duy nhất với các mẫu quan trọng nhất. Điều này có thể xác định kích thước của "k" của bạn. Theo cách này, bạn sẽ xác định thùng thứ k "nhiều thông tin nhất" và so sánh nó với các thùng khác, và so với nhóm ít thông tin nhất.
Điều này có thể cho bạn ý tưởng về sự thay đổi tối đa của các tham số mô hình của bạn. Nó chỉ là một hình thức.
Một cách thứ hai để phân chia các thùng thứ k là độ lớn và hướng của ảnh hưởng. Vì vậy, bạn có thể đặt các mẫu lắc lư một tham số hoặc tham số theo một hướng vào một nhóm và đặt các mẫu lắc lư cùng tham số hoặc tham số theo hướng ngược lại vào một nhóm khác.
Biến thể tham số trong hình thức này có thể giúp quét rộng hơn các biến, không dựa trên mật độ thông tin, mà dựa trên giống thông tin.
May mắn nhất.