Tôi có một số mô hình dự đoán có hiệu suất mà tôi muốn kiểm tra lại (nghĩa là lấy dữ liệu của tôi, "tua lại" đến thời điểm trước đó và xem mô hình sẽ thực hiện như thế nào trong tương lai).
Vấn đề là một số mô hình của tôi đã được xây dựng thông qua một quá trình tương tác. Chẳng hạn, làm theo lời khuyên trong Chiến lược mô hình hồi quy của Frank Harrell , trong một mô hình tôi đã sử dụng các khối vuông bị hạn chế để xử lý các mối liên hệ phi tuyến có thể có giữa các tính năng và phản hồi. Tôi đã phân bổ mức độ tự do của mỗi spline dựa trên sự kết hợp giữa kiến thức miền và các biện pháp mạnh mẽ của sự liên kết. Nhưng mức độ tự do mà tôi muốn cho phép mô hình của tôi rõ ràng phụ thuộc vào kích thước của tập dữ liệu, thay đổi đáng kể khi kiểm tra lại. Nếu tôi không muốn tự tay chọn mức độ tự do cho mỗi lần mô hình được kiểm tra lại, các lựa chọn khác của tôi là gì?
Một ví dụ khác, tôi hiện đang làm việc về phát hiện ngoại lệ thông qua việc tìm kiếm các điểm có đòn bẩy cao. Nếu tôi hài lòng khi làm điều này bằng tay, tôi chỉ cần nhìn vào từng điểm dữ liệu có đòn bẩy cao, kiểm tra sự tỉnh táo rằng dữ liệu có sạch không, và lọc nó ra hoặc làm sạch nó bằng tay. Nhưng điều này phụ thuộc vào một loạt kiến thức về miền, vì vậy tôi không biết cách tự động hóa quy trình.
Tôi sẽ đánh giá cao lời khuyên và giải pháp cả (a) cho vấn đề chung về tự động hóa các phần tương tác của quy trình xây dựng mô hình, hoặc (b) lời khuyên cụ thể cho hai trường hợp này. Cảm ơn!