Tôi muốn biết nếu quy trình được mô tả dưới đây là hợp lệ / có thể chấp nhận và bất kỳ lời biện minh nào có sẵn.
Ý tưởng: Các thuật toán học tập được giám sát không giả định các cấu trúc / phân phối cơ bản về dữ liệu. Vào cuối ngày, họ ước tính điểm đầu ra. Tôi hy vọng sẽ định lượng được sự không chắc chắn của các ước tính bằng cách nào đó. Bây giờ, quy trình xây dựng mô hình ML vốn đã ngẫu nhiên (ví dụ: lấy mẫu để xác thực chéo để điều chỉnh siêu tham số và lấy mẫu theo GBM ngẫu nhiên), do đó, một đường ống mô hình sẽ cung cấp cho tôi một đầu ra khác nhau cho cùng một công cụ dự đoán với mỗi hạt giống khác nhau. Ý tưởng (ngây thơ) của tôi là điều hành quá trình này nhiều lần để đưa ra phân phối dự đoán và tôi hy vọng có thể đưa ra tuyên bố về sự không chắc chắn của các dự đoán.
Nếu có vấn đề, bộ dữ liệu tôi làm việc thường rất nhỏ (~ 200 hàng.)
Điều này có nghĩa không?
Để làm rõ, tôi không thực sự khởi động dữ liệu theo nghĩa truyền thống (nghĩa là tôi không lấy mẫu lại dữ liệu). Bộ dữ liệu tương tự được sử dụng trong mỗi lần lặp, tôi chỉ khai thác tính ngẫu nhiên trong xval và GBM ngẫu nhiên.