Đoạn trích dưới đây là từ Wizzards Market Market Wizzards của Schwager's (tháng 5 năm 2012), một cuộc phỏng vấn với người quản lý quỹ phòng hộ thành công liên tục Jaffray Woodriff:
Với câu hỏi: "Một số lỗi tồi tệ nhất mà mọi người mắc phải khi khai thác dữ liệu là gì?":
Rất nhiều người nghĩ rằng họ ổn vì họ sử dụng dữ liệu trong mẫu để đào tạo và dữ liệu ngoài mẫu để thử nghiệm. Sau đó, họ sắp xếp các mô hình dựa trên cách chúng thực hiện trên dữ liệu trong mẫu và chọn mô hình tốt nhất để kiểm tra dữ liệu ngoài mẫu. Xu hướng của con người là lấy các mô hình tiếp tục làm tốt trong dữ liệu ngoài mẫu và chọn các mô hình đó để giao dịch. Loại quy trình đó chỉ đơn giản là biến dữ liệu ngoài mẫu thành một phần của dữ liệu huấn luyện bởi vì nó chọn các mô hình hoạt động tốt nhất trong giai đoạn ngoài mẫu. Đó là một trong những lỗi phổ biến nhất mà mọi người mắc phải và là một trong những lý do tại sao việc khai thác dữ liệu vì nó thường được áp dụng mang lại kết quả khủng khiếp.
Người phỏng vấn hỏi: "Thay vào đó bạn nên làm gì?":
Bạn có thể tìm kiếm các mẫu trong đó, trung bình, tất cả các mẫu ngoài mẫu tiếp tục hoạt động tốt. Bạn biết bạn đang làm tốt nếu trung bình cho các mô hình ngoài mẫu là một tỷ lệ đáng kể của điểm trong mẫu. Nói chung, bạn thực sự nhận được ở đâu đó nếu kết quả ngoài mẫu vượt quá 50 phần trăm trong mẫu. Mô hình kinh doanh của QIM sẽ không bao giờ có hiệu quả nếu SAS và IBM đang xây dựng phần mềm mô hình dự đoán tuyệt vời.
Câu hỏi của tôi
Điều này có ý nghĩa gì không? Ý của anh ta là gì? Bạn có manh mối - hoặc thậm chí có thể đặt tên cho phương thức được đề xuất và một số tài liệu tham khảo không? Hay anh chàng này đã tìm thấy chén thánh không ai khác hiểu được? Ông thậm chí còn nói trong cuộc phỏng vấn này rằng phương pháp của ông có khả năng cách mạng hóa khoa học ...