Một giả định cơ bản trong học máy là dữ liệu đào tạo và kiểm tra được rút ra từ cùng một dân số, và do đó tuân theo cùng một phân phối. Nhưng, trong thực tế, điều này rất khó xảy ra. Sự thay đổi đồng biến giải quyết vấn đề này. Ai đó có thể xóa những nghi ngờ sau đây về điều này?
Làm thế nào để kiểm tra xem hai phân phối có khác nhau về mặt thống kê không? Ước tính mật độ hạt nhân (KDE) có thể được sử dụng để ước tính phân phối xác suất để cho biết sự khác biệt? Giả sử tôi có 100 hình ảnh của một danh mục cụ thể. Số lượng hình ảnh thử nghiệm là 50 và tôi đang thay đổi số lượng hình ảnh đào tạo từ 5 thành 50 trong các bước 5. Tôi có thể nói phân phối xác suất khác nhau khi sử dụng 5 hình ảnh đào tạo và 50 hình ảnh thử nghiệm sau khi ước tính chúng bằng KDE không?