Hãy tưởng tượng vấn đề sau đây. Tôi có ảnh chụp nhanh hàng tuần về dữ liệu giá của các mặt hàng K, cũng như các tính năng / dự đoán khác nhau. Tôi muốn dự đoán giá sẽ thay đổi 2 năm kể từ bây giờ.
Tôi tập hợp dữ liệu của mình như sau: mỗi hàng bao gồm các tính năng cho từng mục cho mỗi tuần và biến đầu ra được chuyển tiếp giá 2 năm. Ngày quan sát không có trong tập dữ liệu của tôi - Tôi chỉ sử dụng nó để tách tập dữ liệu thành tập huấn luyện và xác thực, tức là trong xác thực chéo (trong đó tôi loại bỏ 2 năm dữ liệu trước và sau khoảng thời gian xác thực (đó là 1 năm) để ngăn chặn dữ liệu rình mò).
Rõ ràng, các mẫu từ hai tuần liên tiếp cho cùng một mặt hàng (và thậm chí cho các mặt hàng khác nhau) sẽ có mối tương quan cao, cả về tính năng và về biến số phản hồi (vì 2 năm tới sẽ trùng lặp phần lớn, có nghĩa là lợi nhuận sẽ rất giống nhau). Những vấn đề tiềm ẩn nào có thể gây ra cho các phương pháp học tập có giám sát, ví dụ như rừng ngẫu nhiên hoặc cây tăng cường độ dốc?
Suy nghĩ của tôi là:
- Kích thước hiệu quả của bộ dữ liệu sẽ nhỏ hơn dự kiến. Tức là bộ dữ liệu của tôi, giả sử, 100'000 quan sát sẽ hoạt động giống như một bộ dữ liệu 100'000 / (52 * 2) ~ = 1000 quan sát, vì đó là số lượng mẫu mà phản hồi sẽ không tự tương quan. Điều đó sẽ ảnh hưởng đáng kể đến sự phức tạp của các mô hình mà tôi có thể phù hợp với dữ liệu, tức là tôi sẽ gặp vấn đề quá mức đáng kể và có kết quả kém hơn nhiều so với dự kiến.
- Do các tính năng ở rất gần nhau trong các tuần liên tiếp cho mỗi mục trong không gian tính năng, bộ dữ liệu của tôi sẽ bao phủ không gian tính năng tồi tệ hơn nhiều so với dự kiến, một lần nữa làm giảm kích thước "hiệu quả" của bộ dữ liệu.
- Chỉ sử dụng 1 năm dữ liệu để xác thực chéo sẽ xác nhận kết quả xác thực chéo cao, vì một lần nữa, số lượng mẫu hiệu quả trong bộ xác thực sẽ là ~ K thay vì 52 * K.
Là những mối quan tâm hợp lệ? Nếu có, điều đó có nghĩa là với K ~ = 100, tôi sẽ cần hàng trăm, nếu không phải hàng ngàn năm dữ liệu để có thể đào tạo một mô hình phi tuyến tính phức tạp hợp lý từ hàng trăm tính năng, ví dụ như sử dụng rừng ngẫu nhiên hoặc cây tăng cường độ dốc? Hay tôi đang quá bi quan và lập luận của tôi về "kích thước tập dữ liệu hiệu quả" ở trên là vô nghĩa?