Làm thế nào để thúc đẩy làm việc?

23

Cách dễ nhất để hiểu tăng là gì?

Tại sao nó không tăng các phân loại rất yếu "đến vô cùng" (sự hoàn hảo)?

machine-learning boosting

— Łukasz
nguồn

28

Nói một cách dễ hiểu: Nếu trình phân loại của bạn phân loại sai một số dữ liệu, hãy huấn luyện một bản sao khác của nó chủ yếu trên phần bị phân loại sai này với hy vọng rằng nó sẽ khám phá ra thứ gì đó tinh tế. Và sau đó, như thường lệ, lặp đi lặp lại. Trên đường đi, có một số sơ đồ bỏ phiếu cho phép kết hợp tất cả các dự đoán của các phân loại đó theo cách hợp lý.

Bởi vì đôi khi điều đó là không thể (tiếng ồn chỉ che giấu một số thông tin hoặc thậm chí nó không có trong dữ liệu); mặt khác, tăng quá nhiều có thể dẫn đến thừa.

8

Việc tăng cường sử dụng độ co ngót thông qua tham số tốc độ học tập, kết hợp với xác thực chéo k , dự đoán "hết túi" (OOB) hoặc bộ kiểm tra độc lập, xác định số lượng cây cần giữ trong toàn bộ.

Chúng tôi muốn một mô hình học chậm, do đó có sự đánh đổi về mức độ phức tạp của từng mô hình riêng lẻ và số lượng mô hình bao gồm. Hướng dẫn mà tôi đã thấy gợi ý bạn nên đặt tốc độ học tập ở mức thấp nhất có thể (có thể yêu cầu thời gian tính toán và không gian lưu trữ), trong khi độ phức tạp của từng cây nên được lựa chọn trên cơ sở liệu có cho phép tương tác hay không, và ở mức độ nào, Cây càng phức tạp, các tương tác có thể được biểu diễn càng phức tạp.

$[0,1]$ $<0.01$

k CV -fold (hoặc dự đoán OOB hoặc tập kiểm tra độc lập) được sử dụng để quyết định khi nào các mô hình tăng đã bắt đầu overfit. Về cơ bản, chính điều này đã ngăn chúng ta thúc đẩy mô hình hoàn hảo, nhưng tốt hơn là nên học chậm để chúng ta có một nhóm lớn các mô hình đóng góp cho mô hình được trang bị.

— Phục hồi Monica - G. Simpson
nguồn