Lợi thế của GLM trong các nút cuối của cây hồi quy?

Vì vậy, tôi đang chơi xung quanh ý tưởng viết một thuật toán phát triển và cắt tỉa cây hồi quy từ dữ liệu và sau đó, trong các nút cuối của cây, phù hợp với GLM. Tôi đã cố gắng đọc lên ý tưởng nhưng dường như tôi không thể tìm thấy bất kỳ tên nhất quán nào cho kỹ thuật này. Tôi đã đọc nó dưới dạng cây hồi quy lai (HRT), cây mô hình và cây chức năng. Tìm kiếm về các điều khoản này bật lên rất ít.

Tôi có thiếu một tên khác cho điều này? Tôi có thể tìm nghiên cứu về hiệu quả của việc này ở đâu?

regression generalized-linear-model cart

— ApeWithPants
nguồn

Giống như bạn nói ý tưởng này đã được khám phá trước đây (mặc dù dưới các tên khác nhau) và thực sự có một tài liệu rộng rãi về chủ đề đó. Những cái tên mà tôi liên tưởng đến dòng công việc này là Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi hoặc Achim Zeileis. Bạn có thể tìm thấy một mô tả khá toàn diện về ưu và nhược điểm và các thuật toán khác nhau (hơi lỗi thời) trong luận án này .

Cây có GLM có các ưu điểm (dis-) sau (được diễn giải từ đây - bạn có thể dễ dàng tìm thấy bản in trước bằng cách googling):

Dạng chức năng của GLM đôi khi có thể dường như quá cứng đối với toàn bộ tập dữ liệu, ngay cả khi mô hình có thể phù hợp tốt trong một mẫu phụ.
Đặc biệt với các tập dữ liệu lớn hoặc tập dữ liệu trong đó kiến thức về các quy trình cơ bản bị hạn chế, việc thiết lập các mô hình tham số hữu ích có thể khó khăn và hiệu suất của chúng đối với dự đoán có thể không được thực hiện.
Cây có thể tự kết hợp các mối quan hệ phi tuyến tính hoặc tự tìm mối quan hệ chức năng và do đó có thể có sức mạnh dự đoán cao hơn trong các cài đặt nơi các mô hình cổ điển bị sai lệch hoặc thậm chí thất bại.
Do đặc tính khám phá của chúng, cây có GLM có thể tiết lộ các mẫu ẩn trong dữ liệu được mô hình hóa với GLM hoặc cung cấp giải thích thêm về kết quả đáng ngạc nhiên hoặc phản trực quan bằng cách kết hợp thêm thông tin từ các hiệp phương sai khác.
Chúng có thể hữu ích trong việc xác định các phân đoạn dữ liệu mà mô hình giả định phù hợp. Có thể là tổng thể mô hình này có sự phù hợp kém nhưng điều này là do một số ô nhiễm (ví dụ: hợp nhất hai tệp dữ liệu riêng biệt hoặc lỗi hệ thống trong quá trình thu thập dữ liệu vào một ngày nhất định). Các cây có GLM có thể phân vùng dữ liệu theo cách cho phép chúng tôi tìm các phân đoạn có độ phù hợp kém và tìm các phân đoạn phù hợp có thể khá tốt.
Cấu trúc giống như cây cho phép các hiệu ứng của các hiệp phương sai này không tuyến tính và có tính tương tác cao trái ngược với giả định tuyến tính có ảnh hưởng đến giá trị trung bình được liên kết.
Cây có GLM có thể dẫn đến cái nhìn sâu sắc bổ sung cho một mô hình tham số giả định tiên nghiệm, đặc biệt nếu các cơ chế cơ bản quá phức tạp để GLM nắm bắt.
Cây có GLM có thể tự động phát hiện các tương tác, phi tuyến tính, lỗi chính tả mô hình, ảnh hưởng hiệp phương sai không được đăng ký, v.v.
Chúng có thể được sử dụng như một công cụ thăm dò trong các tập dữ liệu lớn và phức tạp mà nó có một số lợi thế.
So với GLM toàn cầu, cây mô hình GLM có thể làm giảm bớt vấn đề sai lệch và sai lệch mô hình và cung cấp sự phù hợp tốt hơn.
So với các thuật toán cây với các hằng số, đặc tả của một mô hình tham số trong các nút đầu cuối có thể tăng thêm độ ổn định và do đó làm giảm phương sai của các phương thức cây.
Là sự kết hợp giữa cây và mô hình kiểu GLM cổ điển, hiệu suất thường nằm giữa hai cực đó: Chúng có xu hướng thể hiện sức mạnh dự đoán cao hơn so với mô hình cổ điển nhưng ít hơn cây không tham số.
Chúng thêm một số phức tạp so với mô hình cổ điển vì quá trình phân tách nhưng thường phức tạp hơn so với các cây không tham số.
Chúng cho thấy phương sai dự đoán cao hơn so với mô hình toàn cầu trong các thí nghiệm bootstrap, nhưng ít hơn nhiều so với các cây không tham số (ngay cả những cây được cắt tỉa).
Sử dụng GLM trong nút của cây thường dẫn đến các cây nhỏ hơn
Sử dụng GLM trong nút của cây thường dẫn đến dự đoán ổn định hơn so với cây chỉ có hằng số (nhưng không ổn định như đóng bao hoặc rừng cây)
Kích thước VC của cây có GLM trong các nút cao hơn cây tương đương chỉ có một hằng số (vì cái sau là trường hợp đặc biệt của cái trước)

Về "tính hiệu quả" (tôi cho rằng bạn có nghĩa là hiệu suất dự đoán) của cây với GLM, hầu hết các bài báo được trích dẫn trong hai liên kết ở trên đều cung cấp một số điều tra về điều đó. Tuy nhiên, một so sánh toàn diện, rộng rãi về tất cả các thuật toán với các đối thủ cạnh tranh như cây tiêu chuẩn đã không được thực hiện theo sự hiểu biết tốt nhất của tôi.

— Mẹ ơi
nguồn