Kinh nghiệm 5 năm của tôi về Khoa học Máy tính đã dạy tôi rằng không có gì tốt hơn sự đơn giản.
Khái niệm về Tập dữ liệu 'Đào tạo / Xác thực chéo / Kiểm tra' đơn giản như thế này. Khi bạn có một tập dữ liệu lớn, bạn nên chia thành 3 phần:
++ Tập huấn luyện (60% tập dữ liệu gốc): Điều này được sử dụng để xây dựng thuật toán dự đoán của chúng tôi. Thuật toán của chúng tôi cố gắng điều chỉnh chính nó theo các yêu cầu của tập dữ liệu huấn luyện. Trong giai đoạn này, chúng tôi thường tạo ra nhiều thuật toán để so sánh hiệu suất của chúng trong Giai đoạn xác thực chéo.
++ Bộ xác thực chéo (20% bộ dữ liệu gốc): Tập dữ liệu này được sử dụng để so sánh hiệu suất của các thuật toán dự đoán được tạo dựa trên tập huấn luyện. Chúng tôi chọn thuật toán có hiệu suất tốt nhất.
++ Bộ kiểm tra (20% bộ dữ liệu gốc): Bây giờ chúng tôi đã chọn thuật toán dự đoán ưa thích của mình nhưng chúng tôi chưa biết nó sẽ thực hiện như thế nào trên dữ liệu trong thế giới thực hoàn toàn không nhìn thấy. Vì vậy, chúng tôi áp dụng thuật toán dự đoán đã chọn trên bộ thử nghiệm của mình để xem nó sẽ hoạt động như thế nào để chúng tôi có thể có ý tưởng về hiệu suất của thuật toán của chúng tôi trên dữ liệu không nhìn thấy.
Ghi chú:
- Điều rất quan trọng cần lưu ý là không nên bỏ qua giai đoạn thử nghiệm, bởi vì thuật toán hoạt động tốt trong giai đoạn xác thực chéo không thực sự có nghĩa là nó thực sự là tốt nhất, bởi vì các thuật toán được so sánh dựa trên chéo bộ định giá và các quirks và tiếng ồn của nó ...
-Trong giai đoạn thử nghiệm, mục đích là để xem mô hình cuối cùng của chúng ta sẽ đối phó thế nào, vì vậy trong trường hợp hiệu suất của nó rất kém, chúng ta nên lặp lại toàn bộ quá trình bắt đầu từ Giai đoạn đào tạo.