Giải thích trực quan về sự khác biệt giữa Cây tăng tốc Gradient (GBM) & Adaboost


48

Tôi đang cố gắng tìm hiểu sự khác biệt giữa GBM & Adaboost.

Đây là những gì tôi đã hiểu cho đến nay:

  • Có cả hai thuật toán tăng cường, học hỏi từ các lỗi của mô hình trước đó và cuối cùng tạo ra một tổng số trọng số của các mô hình.
  • GBM và Adaboost khá giống nhau ngoại trừ chức năng mất của chúng.

Nhưng vẫn khó để tôi có được một ý tưởng về sự khác biệt giữa chúng. Ai đó có thể cho tôi lời giải thích trực quan?

Câu trả lời:


34

Tôi tìm thấy phần giới thiệu này có thể cung cấp một số giải thích trực quan.

  • Trong Gradient Boosting, 'thiếu sót' (của những người học yếu hiện tại) được xác định bởi độ dốc .
  • Trong Adaboost, 'thiếu sót' được xác định bởi các điểm dữ liệu trọng lượng cao .

Theo hiểu biết của tôi, sự mất mát theo cấp số nhân của Adaboost mang lại nhiều trọng lượng hơn cho những mẫu được trang bị tệ hơn. Dù sao, Adaboost được coi là một trường hợp đặc biệt của Gradient Boosting về chức năng mất, như thể hiện trong lịch sử của Gradient Boosting được cung cấp trong phần giới thiệu.

  1. Phát minh Adaboost, thuật toán thúc đẩy thành công đầu tiên [Freund và cộng sự, 1996, Freund và Schapire, 1997]
  2. Xây dựng Adaboost dưới dạng độ dốc với hàm mất đặc biệt [Breiman et al., 1998, Breiman, 1999]
  3. Tổng quát hóa Adaboost sang Gradient Boosting để xử lý nhiều chức năng mất [Friedman et al., 2000, Friedman, 2001]

11

Một lời giải thích trực quan về thuật toán AdaBoost

Hãy để tôi xây dựng dựa trên câu trả lời xuất sắc của @ Randel với một minh họa về điểm sau đây


  • Trong Adaboost, 'thiếu sót' được xác định bởi các điểm dữ liệu trọng lượng cao

Tóm tắt lại AdaBoost

Gm(x) m=1,2,...,M

G(x)= =ký tên(α1G1(x)+α2G2(x)+...αMGM(x))= =ký tên(Σm= =1MαmGm(x))
  • Dự đoán cuối cùng là sự kết hợp của các dự đoán từ tất cả các phân loại thông qua một cuộc bỏ phiếu đa số có trọng số

  • αmGm(x)

  • w1,w2,...,wVIẾT SAI RỒIm
  • m= =1wTôi= =1/VIẾT SAI RỒI

AdaBoost trên một ví dụ đồ chơi

M= =10

nhập mô tả hình ảnh ở đây

Hình dung trình tự của người học yếu và trọng lượng mẫu

m= =1,2 ...,6

nhập mô tả hình ảnh ở đây

Lặp lại đầu tiên:

  • Ranh giới quyết định rất đơn giản (tuyến tính) vì đây là những người học dệt
  • Tất cả các điểm có cùng kích thước, như mong đợi
  • 6 điểm màu xanh nằm trong vùng màu đỏ và bị phân loại sai

Lặp lại thứ hai:

  • Ranh giới quyết định tuyến tính đã thay đổi
  • Các điểm màu xanh được phân loại sai trước đây giờ lớn hơn (mẫu lớn hơn) và đã ảnh hưởng đến ranh giới quyết định
  • 9 điểm màu xanh hiện bị phân loại sai

Kết quả cuối cùng sau 10 lần lặp

αm

([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...

Như mong đợi, lần lặp đầu tiên có hệ số lớn nhất vì nó là lần lặp có ít phân loại sai nhất.

Bước tiếp theo

Một lời giải thích trực quan về việc tăng cường độ dốc - sẽ được hoàn thành

Nguồn và đọc thêm:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.