Tại sao Adaboost với cây quyết định?


10

Tôi đã đọc một chút về việc tăng các thuật toán cho các nhiệm vụ phân loại và đặc biệt là Adaboost. Tôi hiểu rằng mục đích của Adaboost là đưa một số "người học yếu" và, thông qua một tập hợp các dữ liệu lặp lại, thúc đẩy các trình phân loại học để dự đoán các lớp mà mô hình liên tục mắc lỗi. Tuy nhiên, tôi đã tự hỏi tại sao rất nhiều bài đọc tôi đã thực hiện đã sử dụng cây quyết định làm trình phân loại yếu. Có một lý do đặc biệt cho việc này? Có những phân loại nhất định làm cho các ứng cử viên đặc biệt tốt hay xấu cho Adaboost?


Người học đơn giản nhất mà bạn có thể sử dụng là cây quyết định với độ sâu = 1. Có lẽ đó là lý do tại sao mọi người sử dụng nó trong các ví dụ của họ.
Aaron

Câu trả lời:


17

Tôi đã nói về điều này trong một câu trả lời cho một câu hỏi SO liên quan . Cây quyết định nói chung là rất phù hợp để tăng cường, nhiều hơn so với các thuật toán khác. Phiên bản tóm tắt / tóm tắt là đây:

  1. Cây quyết định là phi tuyến tính. Tăng cường với các mô hình tuyến tính đơn giản là không hoạt động tốt.
  2. Người học yếu cần nhất quán tốt hơn so với đoán ngẫu nhiên. Bạn không cần phải thực hiện bất kỳ điều chỉnh tham số nào cho cây quyết định để có hành vi đó. Đào tạo một SVM thực sự cần một tìm kiếm tham số. Vì dữ liệu được cân lại trên mỗi lần lặp, nên bạn có thể cần thực hiện một tìm kiếm tham số khác trên mỗi lần lặp. Vì vậy, bạn đang tăng số lượng công việc bạn phải làm bằng một mức lãi lớn.
  3. Cây quyết định là hợp lý nhanh chóng để đào tạo. Vì chúng tôi sẽ xây dựng 100 hoặc 1000 trong số đó, đó là một tài sản tốt. Chúng cũng nhanh chóng phân loại, một lần nữa rất quan trọng khi bạn cần 100 hoặc 1000 để chạy trước khi bạn có thể đưa ra quyết định của mình.
  4. Bằng cách thay đổi độ sâu, bạn có thể kiểm soát đơn giản và dễ dàng đối với sự đánh đổi sai lệch / sai lệch, biết rằng việc tăng có thể làm giảm sai lệch nhưng cũng làm giảm đáng kể phương sai. Tăng cường được biết là quá phù hợp, do đó, cao quý dễ điều chỉnh là hữu ích trong vấn đề đó.

1

Tôi không có câu trả lời trong sách giáo khoa. Tuy nhiên đây là một số suy nghĩ.

Tăng cường có thể được nhìn thấy trong so sánh trực tiếp với đóng bao. Đây là hai cách tiếp cận khác nhau của tình huống khó xử đánh đổi sai lệch. Trong khi việc đóng bao có những người học yếu, một số người học có độ sai lệch thấp và phương sai cao, bằng cách lấy trung bình của nhóm đóng gói làm giảm phương sai cho một chút sai lệch. Tăng cường mặt khác hoạt động tốt với những người học yếu khác nhau. Những người học yếu thúc đẩy có sự thiên vị cao và phương sai thấp. Bằng cách xây dựng một người học trên đầu người khác, đoàn thể tăng cường cố gắng giảm sự thiên vị, cho một chút phương sai.

Kết quả là, nếu bạn xem xét ví dụ sử dụng đóng bao và tăng tốc với cây là những người học yếu, cách tốt nhất để sử dụng là cây nhỏ / ngắn với cây tăng cường và rất chi tiết với việc đóng bao. Đây là lý do tại sao rất thường xuyên một thủ tục thúc đẩy sử dụng gốc quyết định là người học yếu, đó là cây ngắn nhất có thể (một điều kiện nếu một điều kiện trên một chiều). Stump quyết định này là rất ổn định, vì vậy nó có phương sai rất thấp.

Tôi không thấy bất kỳ lý do nào để sử dụng cây với các thủ tục thúc đẩy. Tuy nhiên, cây ngắn rất đơn giản, dễ thực hiện và dễ hiểu. Tuy nhiên, tôi nghĩ rằng để thành công với thủ tục thúc đẩy, người học yếu của bạn phải có phương sai thấp, phải cứng nhắc, với rất ít mức độ tự do. Ví dụ, tôi thấy không có điểm nào là người học yếu như một mạng lưới thần kinh.

Ngoài ra, bạn phải lưu ý rằng đối với một số loại thủ tục tăng cường, ví dụ như tăng cường độ dốc, Breiman nhận thấy rằng nếu người học yếu là một cái cây, một số tối ưu hóa trong cách thức tăng cường hoạt động có thể được thực hiện. Vì vậy, chúng tôi có cây tăng cường độ dốc. Có một sự tiếp xúc tốt đẹp của việc tăng cường trong cuốn sách ESTL.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.