Tôi nghĩ một giả định cơ bản của học máy hoặc ước lượng tham số là dữ liệu không nhìn thấy đến từ cùng một phân phối với tập huấn luyện. Tuy nhiên, trong một số trường hợp thực tế, việc phân phối bộ kiểm tra sẽ gần như khác với tập huấn luyện.
Nói cho một vấn đề đa phân loại quy mô lớn cố gắng phân loại mô tả sản phẩm thành khoảng 17.000 lớp. Tập huấn luyện sẽ có các thầy tu lớp rất sai lệch, như vậy một số lớp có thể có nhiều ví dụ đào tạo, nhưng một số có thể chỉ có một vài. Giả sử chúng ta được cung cấp một bộ kiểm tra với các nhãn lớp không xác định từ máy khách. Chúng tôi cố gắng phân loại từng sản phẩm trong bộ thử nghiệm thành một trong 17.000 lớp, sử dụng bộ phân loại được đào tạo trên bộ huấn luyện. Bộ kiểm tra có thể có các phân phối lớp bị lệch nhưng có lẽ rất khác so với tập huấn luyện, vì chúng có thể liên quan đến các lĩnh vực kinh doanh khác nhau. Nếu hai bản phân phối lớp rất khác nhau, bộ phân loại được đào tạo có thể không hoạt động tốt trong tập kiểm tra. Điều này có vẻ đặc biệt rõ ràng với phân loại Naive Bayes.
Có cách nào nguyên tắc để xử lý sự khác biệt giữa tập huấn luyện và tập kiểm tra cụ thể cho các phân loại xác suất không? Tôi đã nghe nói rằng "SVM chuyển tải" thực hiện điều tương tự trong SVM. Có các kỹ thuật tương tự để tìm hiểu một bộ phân loại hoạt động tốt nhất trên một bộ kiểm tra cụ thể không? Sau đó, chúng ta có thể đào tạo lại trình phân loại cho các bộ kiểm tra đã cho khác nhau, như được cho phép trong kịch bản thực tế này.