Học tập đồng bộ: Tại sao Mô hình xếp chồng hiệu quả?

Gần đây, tôi đã trở nên quan tâm đến việc sắp xếp mô hình như một hình thức học tập. Cụ thể, tôi đã thử nghiệm một chút với một số bộ dữ liệu đồ chơi cho các vấn đề hồi quy. Về cơ bản, tôi đã triển khai các bộ hồi quy "cấp 0" riêng lẻ, lưu trữ từng dự đoán đầu ra của bộ hồi quy làm tính năng mới cho "bộ hồi quy meta" làm đầu vào của nó và phù hợp với bộ hồi quy meta này trên các tính năng mới này (dự đoán từ cấp 0 hồi quy). Tôi đã vô cùng ngạc nhiên khi thấy những cải tiến thậm chí còn khiêm tốn so với các bộ hồi quy riêng lẻ khi thử nghiệm bộ hồi quy meta dựa trên bộ xác nhận.

Vì vậy, đây là câu hỏi của tôi: tại sao xếp chồng mô hình hiệu quả? Theo trực giác, tôi sẽ mong muốn mô hình thực hiện xếp chồng hoạt động kém vì nó dường như có một đại diện tính năng nghèo nàn so với mỗi mô hình cấp 0. Đó là, nếu tôi huấn luyện các bộ hồi quy 3 cấp 0 trên một tập dữ liệu với 20 tính năng và sử dụng các dự đoán của bộ hồi quy cấp 0 này làm đầu vào cho bộ hồi quy meta của tôi, điều này có nghĩa là bộ hồi quy meta của tôi chỉ có 3 tính năng để tìm hiểu. Có vẻ như có nhiều thông tin được mã hóa trong 20 tính năng gốc mà các bộ hồi quy cấp 0 có để đào tạo hơn 3 tính năng đầu ra mà bộ hồi quy meta sử dụng để đào tạo.

machine-learning ensemble stacking

— kylerthecreator
nguồn

Hãy nghĩ về việc tập hợp lại về cơ bản là một khai thác của định lý giới hạn trung tâm.

Định lý giới hạn trung tâm nói một cách lỏng lẻo rằng, khi kích thước mẫu tăng, giá trị trung bình của mẫu sẽ trở thành ước tính ngày càng chính xác về vị trí thực tế của dân số (giả sử rằng số liệu thống kê bạn đang xem) và phương sai sẽ thắt chặt .

Nếu bạn có một mô hình và nó tạo ra một dự đoán cho biến phụ thuộc của bạn, dự đoán đó có thể sẽ cao hoặc thấp ở một mức độ nào đó. Nhưng nếu bạn có 3 hoặc 5 hoặc 10 mô hình khác nhau tạo ra các dự đoán khác nhau, đối với bất kỳ quan sát cụ thể nào, các dự đoán cao từ một số mô hình sẽ có xu hướng bù các lỗi thấp từ một số mô hình khác và hiệu ứng ròng sẽ là sự hội tụ của mức trung bình (hoặc sự kết hợp khác) của các dự đoán hướng tới "sự thật." Không phải trên mọi quan sát, nhưng nói chung đó là xu hướng. Và như vậy, nói chung, một bộ đồng phục sẽ vượt trội hơn so với mô hình đơn tốt nhất.

— Bà Doug
nguồn