Gần đây tôi đã bắt gặp một bài viết hấp dẫn về dự đoán lợi nhuận thị trường chứng khoán trong tương lai. Tác giả trình bày biểu đồ dưới đây và trích dẫn R ^ 2 là 0,913. Điều này sẽ làm cho phương pháp của tác giả vượt trội hơn nhiều so với bất kỳ điều gì tôi từng thấy về chủ đề này (hầu hết đều cho rằng thị trường chứng khoán là không thể đoán trước).
Tác giả mô tả phương pháp của mình rất chi tiết và cung cấp lý thuyết đáng kể để sao lưu kết quả. Sau đó tôi đọc một bài báo phê bình thứ hai có tham khảo bài báo này: Huyền thoại về khả năng dự đoán chân trời dài . Rõ ràng mọi người đã rơi vào ảo tưởng này trong nhiều thập kỷ. Thật không may, tôi không thực sự hiểu bài báo.
Điều này dẫn tôi đến những câu hỏi sau:
- Có phải sự tự tin sai lệch của các dự đoán dài hạn phát sinh do sử dụng cùng một bộ dữ liệu cho cả đào tạo và xác nhận mô hình? Vấn đề sẽ biến mất nếu dữ liệu đào tạo và xác nhận được lấy từ các khoảng thời gian riêng biệt, không chồng chéo?
- Ngoài việc xác nhận trên tập huấn luyện, tại sao vấn đề này trở nên rõ rệt hơn trong thời gian dài hơn?
- Nói chung, làm thế nào tôi có thể khắc phục vấn đề này khi đào tạo các mô hình phải đưa ra dự đoán dài hạn?