Hãy nói rằng một Mô hình đã được đào tạo vào ngày bằng cách sử dụng dữ liệu được dán nhãn sẵn, chia thành đào tạo và kiểm tra, ví dụ: , . Mô hình này sau đó được triển khai trong sản xuất và đưa ra dự đoán về dữ liệu mới đến. Một số ngày trôi qua và có một loạt dữ liệu được dán nhãn được thu thập ở giữa và ngày, hãy gọi nó là . Theo cách tiếp cận hiện tại của tôi, tôi lấy các mẫu ngẫu nhiên ra khỏi (lấy ví dụ: chia 80/20),
Vì vậy, của = train_x (dữ liệu mới được sử dụng để tinh chỉnh các mô hình hiện có đào tạo về dt1 ) 20 \% của Dữ liệu X = test_x (dữ liệu mới được thêm vào test_ {dt1} )
Quá trình tinh chỉnh này lặp đi lặp lại khi thời gian trôi qua.
Bằng cách này, tôi nhận được một bộ thử nghiệm mở rộng hơn bao giờ hết, cũng như tôi ngăn chặn việc đào tạo lại toàn bộ mô hình (về cơ bản tôi có thể vứt bỏ dữ liệu cũ như mô hình đã học được từ nó). Mô hình mới được tạo ra chỉ là một phiên bản tinh chỉnh của mô hình cũ.
Tôi có một số câu hỏi, liên quan đến phương pháp này:
- Có bất kỳ nhược điểm rõ ràng trong việc này?
- Liệu mô hình có bao giờ cần phải được đào tạo lại hoàn toàn (quên mọi thứ đã học trước đó và huấn luyện mô hình với các phân tách thử nghiệm / đào tạo mới) sau một thời gian hay cách tiếp cận mà tôi mô tả ở trên có thể tiếp tục vô thời hạn không?
- Điều gì sẽ là điều kiện để hoán đổi mô hình đã triển khai với mô hình mới được tinh chỉnh?