Gradient Boosting cho hồi quy tuyến tính - tại sao nó không hoạt động?


35

Trong khi tìm hiểu về Gradient Boosting, tôi chưa nghe về bất kỳ ràng buộc nào liên quan đến các thuộc tính của "trình phân loại yếu" mà phương thức sử dụng để xây dựng và tập hợp mô hình. Tuy nhiên, tôi không thể tưởng tượng một ứng dụng GB sử dụng hồi quy tuyến tính và thực tế khi tôi đã thực hiện một số thử nghiệm - nó không hoạt động. Tôi đã thử nghiệm phương pháp tiêu chuẩn nhất với một dải tổng số dư bình phương và cộng các mô hình tiếp theo lại với nhau.

Vấn đề rõ ràng là phần dư từ mô hình đầu tiên được điền theo cách mà thực sự không có đường hồi quy nào phù hợp nữa. Một quan sát khác của tôi là một tổng các mô hình hồi quy tuyến tính tiếp theo cũng có thể được biểu diễn dưới dạng một mô hình hồi quy đơn (thêm tất cả các hàm và hệ số tương ứng) vì vậy tôi không thể tưởng tượng làm thế nào có thể cải thiện mô hình. Quan sát cuối cùng là hồi quy tuyến tính (cách tiếp cận điển hình nhất) đang sử dụng tổng số dư bình phương làm hàm mất - giống như cách mà GB đang sử dụng.

Tôi cũng đã nghĩ đến việc giảm tốc độ học tập hoặc chỉ sử dụng một tập hợp các yếu tố dự đoán cho mỗi lần lặp, nhưng cuối cùng vẫn có thể được tóm tắt thành một đại diện mô hình duy nhất, vì vậy tôi đoán nó sẽ không cải thiện.

Tôi đang thiếu gì ở đây? Là hồi quy tuyến tính bằng cách nào đó không phù hợp để sử dụng với Gradient Boosting? Có phải vì hồi quy tuyến tính sử dụng tổng số dư bình phương làm hàm mất? Có bất kỳ ràng buộc cụ thể nào đối với các yếu tố dự đoán yếu để chúng có thể được áp dụng cho Gradient Boosting không?


Theo trực giác tôi có xu hướng nghĩ rằng bạn không nên sử dụng các trình phân loại vì tổng của chúng là cùng một loại phân loại. ví dụ: tổng các hàm tuyến tính là một hàm tuyến tính.
dùng18764

Tôi biết điều này đã cũ, nhưng sự hiểu biết của tôi là bước tăng cường giảm thiểu chức năng mất giữa phần dư hiện tại và người học cơ sở (trong trường hợp của bạn là hồi quy tuyến tính) nhân với tỷ lệ học. Vì vậy, trong khi người học cơ sở giảm thiểu mse, chức năng mất được sử dụng bởi booster có thể giống MAPE?
David Waterworth

Câu trả lời:


35

Tôi đang thiếu gì ở đây?

Tôi không nghĩ rằng bạn thực sự thiếu bất cứ điều gì!

Một quan sát khác là tổng các mô hình hồi quy tuyến tính tiếp theo cũng có thể được biểu diễn dưới dạng một mô hình hồi quy đơn (thêm tất cả các hàm và hệ số tương ứng) để tôi không thể tưởng tượng làm thế nào có thể cải thiện mô hình. Quan sát cuối cùng là hồi quy tuyến tính (cách tiếp cận điển hình nhất) đang sử dụng tổng số dư bình phương làm hàm mất - giống như cách mà GB đang sử dụng.

Dường như với tôi rằng bạn đóng đinh nó ngay tại đó, và đưa ra một bản phác thảo ngắn về một bằng chứng cho thấy hồi quy tuyến tính chỉ đánh bại sự hồi quy tuyến tính trong thiết lập này.

Để trở thành phạm vi, cả hai phương pháp đều cố gắng giải quyết vấn đề tối ưu hóa sau

β^= =argminβ(y-Xβ)t(y-Xβ)

Hồi quy tuyến tính chỉ quan sát rằng bạn có thể giải quyết nó trực tiếp, bằng cách tìm giải pháp cho phương trình tuyến tính

XtXβ= =Xty

Điều này tự động cung cấp cho bạn giá trị tốt nhất có thể của trong số tất cả các khả năng.β

Tăng cường, cho dù trình phân loại yếu của bạn là hồi quy một biến hay đa biến, cung cấp cho bạn một chuỗi các vectơ hệ số . Dự đoán mô hình cuối cùng là, khi bạn quan sát, một tổng và có dạng chức năng tương tự như hồi quy tuyến tính đầy đủβ1,β2,Giáo dục

Xβ1+Xβ2++Xβn= =X(β1+β2++βn)

Mỗi bước được chọn để tiếp tục giảm tổng các lỗi bình phương. Nhưng chúng ta có thể tìm thấy tổng sai số tối thiểu có thể có trong dạng hàm này bằng cách thực hiện hồi quy tuyến tính đầy đủ để bắt đầu.

Một biện pháp bảo vệ khả năng thúc đẩy trong tình huống này có thể là sự chính quy ngầm mà nó cung cấp. Rất có thể (tôi chưa chơi với cái này), bạn có thể sử dụng tính năng dừng sớm của bộ tăng cường độ dốc, cùng với xác nhận chéo, để dừng việc hồi quy tuyến tính đầy đủ. Điều này sẽ cung cấp sự chính quy cho hồi quy của bạn và có thể giúp khắc phục tình trạng thừa. Điều này không đặc biệt thiết thực, vì người ta có các tùy chọn rất hiệu quả và được hiểu rõ như hồi quy sườn và lưới đàn hồi trong cài đặt này.

Tăng cường tỏa sáng khi không có hình thức chức năng ngắn gọn xung quanh. Cây quyết định tăng cường cho phép hình thức chức năng của bộ hồi quy / phân loại phát triển chậm để phù hợp với dữ liệu, thường dẫn đến hình dạng phức tạp mà người ta không thể mơ thấy bằng tay và mắt. Khi một hình thức chức năng đơn giản được mong muốn, việc tăng cường sẽ không giúp bạn tìm thấy nó (hoặc ít nhất có lẽ là một cách khá kém hiệu quả để tìm thấy nó).


2
Tôi thích câu trả lời, nhưng để có một chút mô phạm, từ hồi quy là công cụ ước lượng không thiên vị tuyến tính tốt nhất. Việc không thiên vị có thể cho phép bạn làm tốt hơn một chút, đặc biệt là với tính đa hình cao, điều mà bạn đã trốn tránh vào cuối. β
Jonathan Lisic

Đó là một câu trả lời rất hay và rõ ràng. Cảm ơn đã xác nhận / giải thích Matthew!
Matek

"Tăng cường tỏa sáng khi không có hình thức chức năng ngắn gọn xung quanh." Đây là câu trả lời tôi đang tìm kiếm. Vì vậy, chỉ muốn xác nhận, ý bạn là câu trả lời của câu hỏi của tôi là có, nhưng không ai sử dụng mô hình tuyến tính như người học cơ sở?, Stats.stackexchange.com/questions/231286/
Haitao Du

5

Ma trận chiếu bình phương nhỏ nhất được cho bởi

X(XTX)-1XT

Chúng tôi có thể sử dụng điều này để trực tiếp lấy các giá trị dự đoán của mình , ví dụ:y^

y^= =X(XTX)-1XTy

Giả sử bạn phù hợp với hồi quy và sau đó bạn tính số dư của mình

e= =y-y^= =y-X(XTX)-1XTy

Và sau đó bạn sử dụng vectơ dư e này làm biến phụ thuộc mới của bạn trong hồi quy tiếp theo. Sử dụng lại ma trận chiếu để tính trực tiếp các dự đoán của hồi quy thứ hai này và gọi các dự đoán mới này :y^2

y^2= =X(XTX)-1XTe= =X(XTX)-1XT(y-X(XTX)-1XTy)= =X(XTX)-1XTy-X(XTX)-1XTX(XTX)-1XTy= =X(XTX)-1XTy-X(XTX)-1XTy= =0

Một lý do cho điều này là bằng cách xây dựng vectơ dư e từ hồi quy ban đầu là trực giao với X Space, tức là là một phép chiếu trực giao từ y lên không gian X (bạn sẽ tìm thấy những hình ảnh đẹp mắt trong tài liệu này ).y^

Điều này có nghĩa là cách tiếp cận đơn giản của việc điều chỉnh hồi quy và sau đó điều chỉnh hồi quy mới trên phần dư từ hồi quy đầu tiên sẽ không dẫn đến kết quả gì có ý nghĩa vì X hoàn toàn không tương thích với e.

Tôi viết điều này bởi vì bạn nói rằng thực sự không có một dòng mới để phù hợp với các dẫn xuất ở trên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.