Hồi quy tuyến tính (không) tại cây quyết định lá

8

Có phổ biến để có một kỹ thuật hồi quy khác nhau ở lá cây hồi quy (ví dụ hồi quy tuyến tính) không? Tôi đã tìm kiếm nó trong một giờ qua nhưng tất cả những gì tôi tìm thấy là những triển khai có giá trị không đổi ở những chiếc lá. Có một lý do tại sao điều này là / không phổ biến?

cart nonlinear-regression

— marqram
nguồn

5

MARS làm điều này

Tôi nghĩ điều đó không phổ biến hơn là rất nhiều sự mạnh mẽ của các mô hình kiểu cây quyết định xuất phát từ thực tế họ luôn dự đoán các giá trị không đổi trong phạm vi họ đã thấy.

Các ngoại lệ trong dữ liệu thường chỉ được gộp chung với các giá trị bình thường cao nhất / thấp nhất trong dữ liệu trên lá cuối cùng và không gây ra các dự đoán lạ hoặc loại bỏ các hệ số.

Họ cũng không gặp phải các vấn đề về đa bạch cầu nhiều như các mô hình tuyến tính.

Bạn có thể giải quyết các vấn đề này khi triển khai nhưng thực tế sẽ dễ dàng và mạnh mẽ hơn khi chỉ cần thêm nhiều cây trong một bộ đồng phục thông qua việc tăng cường hoặc đóng bao cho đến khi bạn có được sự mượt mà bạn cần.

— Ryan Bressler
nguồn

5

Đã có khá nhiều nghiên cứu về chủ đề này trong nhiều thập kỷ qua, bắt đầu từ những nỗ lực tiên phong của Ciampi, tiếp theo là HƯỚNG DẪN của Loh, và sau đó là các cây chức năng của Gama hoặc phương pháp phân vùng đệ quy dựa trên mô hình của chúng tôi. Một tổng quan đẹp được đưa ra trong câu trả lời của @ Momo cho câu hỏi này: Lợi thế của GLM trong các nút cuối của cây hồi quy?

Phần mềm tương ứng ít được sử dụng rộng rãi hơn các cây phù hợp đơn giản khi bạn quan sát. Một phần lý do cho điều này có lẽ là khó viết hơn - nhưng cũng khó sử dụng hơn. Nó chỉ đòi hỏi nhiều thông số kỹ thuật hơn một mô hình GIỎ HÀNG đơn giản. Nhưng phần mềm có sẵn (như được chỉ ra ở đây bởi @marqram hoặc @Momo tại: Thuật toán cây hồi quy với các mô hình hồi quy tuyến tính trong mỗi lá ). Các gói phần mềm nổi bật bao gồm:

Trong bộ Weka có M5P(M5 ') cho các phản hồi liên tục, LMT(các cây mô hình logistic) cho các phản hồi nhị phân và FT(các cây chức năng) cho các phản ứng phân loại. Xem http://www.cs.waikato.ac.nz/~ml/weka/ để biết thêm chi tiết. Các cựu hai chức năng cũng có thể dễ dàng giao tiếp thông qua các gói R RWeka.
Việc triển khai HƯỚNG DẪN của Loh có sẵn ở dạng nhị phân miễn phí (nhưng không có mã nguồn) từ http://www.stat.wisc.edu/~loh/guide.html . Nó cho phép sửa đổi các chi tiết của phương thức bằng một loạt các tùy chọn điều khiển.
Thuật toán MOB (phân vùng đệ quy dựa trên MOdel) của chúng tôi có sẵn trong gói R partykit(kế thừa cho việc partythực hiện). Các mob()chức năng cung cấp cho bạn một khuôn khổ chung, cho phép bạn xác định mô hình mới có thể dễ dàng lắp đặt ở các nút / lá của cây. Giao diện tiện lợi lmtree()và glmtree()kết hợp mob()với lm()và glm()có sẵn trực tiếp và minh họa trong vignette("mob", package = "partykit"). Nhưng các plugin khác cũng có thể được xác định. Ví dụ: trong /programming/37037445/USE-mob-trees-partykit-package-with-nls-model mob() được kết hợp với nls(). Nhưng cũng có "mobsters" cho các mô hình tâm lý khác nhau (in psychotree) và cho hồi quy beta (in betareg).

— Achim Zeileis
nguồn

3

Tôi đã tìm thấy một phương thức thực hiện điều này (một cây quyết định, trong đó các lá chứa hồi quy tuyến tính thay vì giá trị trung bình). Chúng được gọi là cây mô hình [1] và một ví dụ là thuật toán M5P [2] của weka. Trong M5P, hồi quy tuyến tính là ở mỗi lá.

Chỉnh sửa: Tôi tìm thấy một gói / mô hình khác thực hiện một cái gì đó tương tự và dường như cho kết quả rất tốt cho bộ dữ liệu của tôi: lập thể. Việc thực hiện trong R được đưa ra bởi gói lập thể [3]. Cubist bổ sung việc tăng cường kết hợp với M5P và cái mà nó gọi là 'sửa lỗi dựa trên cá thể'.

[1]: Torgo, L. Các mô hình chức năng cho lá cây hồi quy. Trong Kỷ yếu Hội thảo quốc tế lần thứ 14 về Học máy, trang 385 385393. Morgan Kaufmann, 1997.

[2]: M5P http://weka.sourceforge.net/doc.dev/weka/ classifier / trrees / M5P.html

[3]: Mô hình lập thể lập thể Lập thể lập thể: Mô hình hồi quy dựa trên quy tắc và lập trường https://cran.r-project.org/web/packages/Cubist/index.html

— marqram
nguồn