Làm thế nào để các phương pháp tập hợp tốt hơn tất cả các thành phần của họ?

16

Tôi có một chút bối rối về việc học tập. Tóm lại, nó chạy các mô hình k và lấy trung bình của các mô hình k này. Làm thế nào có thể đảm bảo rằng trung bình của các mô hình k sẽ tốt hơn bất kỳ mô hình nào? Tôi hiểu rằng sự thiên vị là "dàn trải" hoặc "trung bình". Tuy nhiên, điều gì sẽ xảy ra nếu có hai mô hình trong nhóm (tức là k = 2) và một trong số đó là tồi tệ hơn mô hình kia - liệu hòa tấu có tệ hơn mô hình tốt hơn không?

machine-learning ensemble

— người dùng1691278
nguồn

Về xếp chồng: Xếp chồng: Có nhiều phân loại cơ sở luôn cải thiện độ chính xác?

— Franck Dernoncourt

chủ đề này làm tôi quan tâm, nhưng đã đưa ra nhiều câu hỏi hơn nó đã trả lời. Tất cả chúng ta có thể sử dụng thêm một chút để xác định chặt chẽ hơn tất cả những từ này chúng ta đang sử dụng không?

L A T E X

$\LaTeX$

— Taylor

23

Nó không được bảo đảm. Như bạn nói, bản hòa tấu có thể tệ hơn các mẫu riêng lẻ. Ví dụ, lấy mức trung bình của mô hình thực và mô hình xấu sẽ cho mô hình khá xấu.

Trung bình của các mô hình sẽ chỉ là một sự cải thiện nếu các mô hình (phần nào) độc lập với nhau. Ví dụ, trong đóng gói, mỗi mô hình được xây dựng từ một tập hợp con dữ liệu ngẫu nhiên, do đó, một số tính độc lập được xây dựng. Hoặc các mô hình có thể được xây dựng bằng cách sử dụng các kết hợp các tính năng khác nhau, sau đó kết hợp bằng cách lấy trung bình. $k$

Ngoài ra, tính trung bình của mô hình chỉ hoạt động tốt khi các mô hình riêng lẻ có phương sai cao. Đó là lý do tại sao một khu rừng ngẫu nhiên được xây dựng bằng những cây rất lớn. Mặt khác, tính trung bình một loạt các mô hình hồi quy tuyến tính vẫn cung cấp cho bạn một mô hình tuyến tính, điều này dường như không tốt hơn các mô hình bạn đã bắt đầu (thử nó!)

Các phương pháp tập hợp khác, như tăng cường và pha trộn, hoạt động bằng cách lấy đầu ra từ các mô hình riêng lẻ, cùng với dữ liệu đào tạo, làm đầu vào cho một mô hình lớn hơn. Trong trường hợp này, không có gì đáng ngạc nhiên khi chúng thường hoạt động tốt hơn các mô hình riêng lẻ, vì thực tế chúng phức tạp hơn và chúng vẫn sử dụng dữ liệu đào tạo.

— Cá bơn
nguồn

Ý bạn là RF sử dụng một số lượng lớn cây để đạt được phương sai lớn? Tôi hy vọng rằng khi cây phát triển lớn hơn, chúng sẽ trải rộng hầu hết các tính năng và phương sai giữa các mô hình sẽ giảm.

— Itamar

Không, @Flounderer là chính xác. Cây quyết định được gọi là mô hình không ổn định. Nếu bạn thay đổi dữ liệu một chút, bạn sẽ nhận được các cây rất khác nhau. Rừng ngẫu nhiên là phương tiện để ổn định chúng. Nếu bạn huấn luyện hai RF với các mẫu dữ liệu hơi khác nhau, chúng sẽ tạo ra các mô hình tương tự nhau.

— Ricardo Cruz

"Tính trung bình một loạt các mô hình hồi quy tuyến tính vẫn cung cấp cho bạn một mô hình tuyến tính" <- bạn có ý nghĩa gì khi tính trung bình ở đây? Ngoài ra bạn đang nói về phương sai nào?

— Taylor

6

Trong ví dụ của bạn, tập hợp hai mô hình của bạn có thể tệ hơn chính một mô hình. Nhưng ví dụ của bạn là nhân tạo, chúng tôi thường xây dựng nhiều hơn hai trong nhóm của chúng tôi.

Không có gì đảm bảo tuyệt đối một mô hình tập hợp hoạt động tốt hơn một mô hình riêng lẻ, nhưng nếu bạn xây dựng nhiều mô hình đó, và phân loại riêng lẻ của bạn yếu . Hiệu suất tổng thể của bạn nên tốt hơn một mô hình cá nhân.

Trong học máy, đào tạo nhiều mô hình thường vượt trội so với đào tạo một mô hình duy nhất. Đó là bởi vì bạn có nhiều thông số để điều chỉnh.

— Nhỏ
nguồn

2

Tôi chỉ muốn ném một cái gì đó hiếm khi được thảo luận trong bối cảnh này, và nó sẽ cung cấp cho bạn thực phẩm để suy nghĩ.

Bộ đồng phục cũng hoạt động với con người!

Nó đã được quan sát thấy rằng trung bình dự đoán của con người đưa ra dự đoán tốt hơn bất kỳ dự đoán cá nhân. Điều này được gọi là sự khôn ngoan của đám đông.

Bây giờ, bạn có thể lập luận rằng đó là do một số người có thông tin khác nhau, vì vậy bạn đang lấy trung bình thông tin một cách hiệu quả. Nhưng không, điều này đúng ngay cả đối với các nhiệm vụ như đoán số lượng đậu trong một cái lọ.

Có rất nhiều sách và thí nghiệm được viết về điều này, và hiện tượng này vẫn đánh đố các nhà nghiên cứu.

Điều này đang được nói, như @Flounder chỉ ra, lợi ích thực sự đến từ cái gọi là mô hình không ổn định như cây quyết định, trong đó mỗi quan sát thường có tác động đến ranh giới quyết định. Những cái ổn định hơn như SVM không thu được nhiều vì việc lấy mẫu lại thường không ảnh hưởng nhiều đến các vectơ hỗ trợ.

— Ricardo Cruz
nguồn

1

Đây là lý do tại sao tôi luôn cố gắng thuê những người không giống như tôi. Lời khuyên tốt cho việc xây dựng đội ngũ linh hoạt và hiệu quả.

— Matthew Drury

0

Nó thực sự hoàn toàn có thể cho các mô hình duy nhất là tốt hơn so với các bản hòa tấu.

Ngay cả khi không có điểm nào trong dữ liệu của bạn trong đó một số mô hình của bạn đang đánh giá quá cao và một số mô hình bị đánh giá thấp (trong trường hợp đó bạn có thể hy vọng rằng lỗi trung bình sẽ bị phủ nhận), một số hàm mất phổ biến nhất (như mất bình phương) độ lệch lớn duy nhất nhiều hơn một số độ lệch vừa phải. Nếu các mô hình bạn đang tính trung bình có phần khác nhau, bạn có thể hy vọng rằng phương sai sẽ trở nên "ít" hơn khi trung bình giết chết các sai lệch nổi bật. Có lẽ nó có thể giải thích với điều đó .

— hướng nam
nguồn

0

Vâng, nó có thể là trường hợp nhưng ý tưởng cho việc hòa nhập là đào tạo các mô hình đơn giản hơn để tránh phù hợp hơn trong khi nắm bắt các đặc điểm khác nhau của dữ liệu từ các nhóm khác nhau. Tất nhiên, không có gì đảm bảo về một mô hình tập hợp để vượt trội hơn một mô hình duy nhất trong khi được đào tạo với cùng một dữ liệu đào tạo. Sự vượt trội có thể đạt được bằng cách kết hợp các mô hình tập hợp và tăng cường (ví dụ AdaBoost). Bằng cách thúc đẩy bạn huấn luyện từng mô hình tập hợp tiếp theo bằng cách gán trọng số cho từng điểm dữ liệu và cập nhật chúng theo lỗi. Vì vậy, hãy nghĩ về nó như là một thuật toán gốc tọa độ, nó cho phép lỗi đào tạo giảm xuống với mỗi lần lặp trong khi duy trì độ phức tạp mô hình trung bình không đổi. Nhìn chung, điều này làm ảnh hưởng đến hiệu suất. Có nhiều

— Kerem T
nguồn