Tôi đã sử dụng gói caret trong R để xây dựng các mô hình dự đoán để phân loại và hồi quy. Caret cung cấp một giao diện hợp nhất để điều chỉnh các tham số siêu mô hình bằng cách xác thực chéo hoặc đóng đai khởi động. Ví dụ: nếu bạn đang xây dựng mô hình 'hàng xóm gần nhất' đơn giản để phân loại, bạn nên sử dụng bao nhiêu hàng xóm? 2? 10? 100? Caret giúp bạn trả lời câu hỏi này bằng cách lấy mẫu lại dữ liệu của bạn, thử các tham số khác nhau và sau đó tổng hợp các kết quả để quyết định kết quả nào có độ chính xác dự đoán tốt nhất.
Tôi thích cách tiếp cận này vì nó cung cấp một phương pháp mạnh mẽ để chọn siêu tham số mô hình và một khi bạn đã chọn siêu tham số cuối cùng, nó cung cấp ước tính xác thực chéo về mức độ "tốt" của mô hình, sử dụng độ chính xác cho các mô hình phân loại và RMSE cho các mô hình hồi quy.
Bây giờ tôi có một số dữ liệu chuỗi thời gian mà tôi muốn xây dựng mô hình hồi quy cho, có thể sử dụng một rừng ngẫu nhiên. Một kỹ thuật tốt để đánh giá độ chính xác dự đoán của mô hình của tôi, dựa trên bản chất của dữ liệu là gì? Nếu các khu rừng ngẫu nhiên không thực sự áp dụng cho dữ liệu chuỗi thời gian, thì cách tốt nhất để xây dựng một mô hình tập hợp chính xác để phân tích chuỗi thời gian là gì?