Cây quyết định và hồi quy - Các giá trị dự đoán có thể nằm ngoài phạm vi của dữ liệu đào tạo không?


11

Khi nói đến cây quyết định, giá trị dự đoán có thể nằm ngoài phạm vi của dữ liệu đào tạo không?

Ví dụ: nếu phạm vi tập dữ liệu huấn luyện của biến mục tiêu là 0-100, khi tôi tạo mô hình của mình và áp dụng nó cho một thứ khác, các giá trị của tôi có thể là -5 không? hay 150?

Cho rằng sự hiểu biết của tôi về hồi quy cây quyết định là nó vẫn là một quy tắc dựa trên - tiến trình trái / phải và ở dưới cùng của cây trong tập huấn luyện, nó không bao giờ có thể nhìn thấy một giá trị ngoài một phạm vi nhất định, nó sẽ không bao giờ có thể dự đoán nó?


1
Đối với một câu hỏi tương tự về cây tăng cường độ dốc, hãy xem stats.stackexchange.com/questions/304962/iêu
Adrian

Câu trả lời:


10

Bạn hoàn toàn đúng: cây quyết định cổ điển không thể dự đoán các giá trị ngoài phạm vi được quan sát trong lịch sử. Họ sẽ không ngoại suy.

Điều tương tự cũng áp dụng cho các khu rừng ngẫu nhiên.

Về mặt lý thuyết, đôi khi bạn thấy các cuộc thảo luận về các kiến ​​trúc phức tạp hơn (botiances?), Trong đó lá của cây không cho một giá trị duy nhất , nhưng chứa một hồi quy đơn giản , ví dụ, hồi quy biến phụ thuộc vào một biến độc lập số cụ thể. Điều hướng qua cây sẽ cung cấp cho bạn một quy tắc đặt IV để hồi quy DV trong trường hợp nào. Trong trường hợp như vậy, hồi quy "mức dưới cùng" này có thể được ngoại suy để mang lại các giá trị chưa được quan sát.

Tuy nhiên, tôi không nghĩ rằng các thư viện máy học tiêu chuẩn cung cấp cấu trúc phức tạp hơn một chút này (gần đây tôi đã tìm kiếm điều này thông qua CRAN Task Views for R), mặc dù thực sự không có gì phức tạp về nó. Bạn có thể thực hiện cây của riêng bạn có chứa hồi quy trong lá.


1
Tôi đã đọc rất ít về mobForest hỗ trợ hồi quy lá trong R, stats.stackexchange.com/questions/48475/mobforest-r-package
Soren Havelund Welling 14/1/2016

1
@SorenHavelundWelling: nghe có vẻ thú vị. Cảm ơn con trỏ!
Stephan Kolassa

1
Một trong những thuật toán đầu tiên cung cấp mô hình hồi quy tuyến tính trong lá của cây là M5 của Quinlan, một phép tính gần đúng có sẵn trong M5P () ở Weka (giao tiếp từ R đến Rweka). Một thuật toán không thiên vị cho vấn đề, được gọi là GUIDE, lần đầu tiên được đề xuất bởi Loh. Binaries cho gói độc lập của mình là trên trang web của mình. Cuối cùng, thuật toán phân vùng đệ quy dựa trên mô hình (MOB) của chúng tôi bao gồm nhiều mô hình như vậy. Nó có sẵn trong gói bộ công cụ R: mob () là công cụ chung và lmtree () và glmtree () là sự thích ứng của nó với các cây có mô hình tuyến tính (tổng quát) trong lá.
Achim Zeileis

2
@SorenHavelundWelling: không may, các mobForestgói đã bị xóa khỏi cran . Tôi sẽ xem xét partykitgóiAchim Zeileis đề nghị .
Stephan Kolassa

1
Chỉ cần lưu ý rằng mobForest đã hoạt động trở lại trên CRAN: cran.r-project.org/web/packages/mobForest/index.html
mkt - Tái lập lại

6

Ngoài ra kiểm tra cubist trong gói caret. Nó xây dựng hồi quy tuyến tính trong các nút đầu cuối và có thể ngoại suy các dự đoán ở trên và dưới phạm vi của các giá trị đáp ứng trong dữ liệu huấn luyện. Các nút thiết bị đầu cuối cũng có thể được tính trung bình dựa trên các lân cận gần nhất được cung cấp dưới dạng siêu tham số, do đó, nó có khả năng cung cấp các dự đoán xác thực chéo cực kỳ chính xác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.