Gần đây, tôi đã trở nên quan tâm đến việc sắp xếp mô hình như một hình thức học tập. Cụ thể, tôi đã thử nghiệm một chút với một số bộ dữ liệu đồ chơi cho các vấn đề hồi quy. Về cơ bản, tôi đã triển khai các bộ hồi quy "cấp 0" riêng lẻ, lưu trữ từng dự đoán đầu ra của bộ hồi quy làm tính năng mới cho "bộ hồi quy meta" làm đầu vào của nó và phù hợp với bộ hồi quy meta này trên các tính năng mới này (dự đoán từ cấp 0 hồi quy). Tôi đã vô cùng ngạc nhiên khi thấy những cải tiến thậm chí còn khiêm tốn so với các bộ hồi quy riêng lẻ khi thử nghiệm bộ hồi quy meta dựa trên bộ xác nhận.
Vì vậy, đây là câu hỏi của tôi: tại sao xếp chồng mô hình hiệu quả? Theo trực giác, tôi sẽ mong muốn mô hình thực hiện xếp chồng hoạt động kém vì nó dường như có một đại diện tính năng nghèo nàn so với mỗi mô hình cấp 0. Đó là, nếu tôi huấn luyện các bộ hồi quy 3 cấp 0 trên một tập dữ liệu với 20 tính năng và sử dụng các dự đoán của bộ hồi quy cấp 0 này làm đầu vào cho bộ hồi quy meta của tôi, điều này có nghĩa là bộ hồi quy meta của tôi chỉ có 3 tính năng để tìm hiểu. Có vẻ như có nhiều thông tin được mã hóa trong 20 tính năng gốc mà các bộ hồi quy cấp 0 có để đào tạo hơn 3 tính năng đầu ra mà bộ hồi quy meta sử dụng để đào tạo.