Bạn không nên chỉ ném dữ liệu vào các thuật toán khác nhau và xem xét chất lượng của các dự đoán. Bạn cần hiểu dữ liệu của bạn tốt hơn, và cách tiếp cận đó là trước tiên, trực quan hóa dữ liệu của bạn (phân phối cận biên). Ngay cả khi cuối cùng bạn chỉ quan tâm đến các dự đoán, bạn sẽ ở vị trí tốt hơn để tạo ra các mô hình tốt hơn nếu bạn hiểu dữ liệu tốt hơn. Vì vậy, trước tiên, hãy cố gắng hiểu dữ liệu (và các mô hình đơn giản phù hợp với dữ liệu), và sau đó bạn ở vị trí tốt hơn nhiều để tạo ra các mô hình phức tạp hơn và hy vọng tốt hơn.
rTôi= YTôi- Y^Tôi,i = 1 , 2 , ... , n
Để biết những gì cần kiểm tra, bạn cần hiểu các giả định đằng sau hồi quy tuyến tính, xem danh sách đầy đủ các giả định thông thường cho hồi quy tuyến tính là gì?
rTôiY^Tôi
Các giả định khác là tuyến tính . Để kiểm tra những cái đó, hãy vẽ các phần dư so với từng yếu tố dự đoán trong mô hình. Nếu bạn thấy bất kỳ sự hấp dẫn nào trong các lô đó, đó là bằng chứng chống lại tuyến tính. Nếu bạn tìm thấy phi tuyến tính, bạn có thể thử một số phép biến đổi hoặc (hiện đại hơn) bao gồm bộ dự báo phi tuyến tính đó trong mô hình theo cách phi tuyến tính, có thể sử dụng spline (bạn có 60 triệu ví dụ nên hoàn toàn khả thi! ).
xTôi⋅ zTôixz
Một điều trị dài bằng sách là R Dennis Cook & Sanford Weisberg: "Dư lượng và ảnh hưởng trong hồi quy", Chapman & Hall. Một cách xử lý thời lượng sách hiện đại hơn là Frank Harrell: "Chiến lược mô hình hồi quy".
Và, đến với câu hỏi trong tiêu đề: "Hồi quy dựa trên cây có thể thực hiện tồi tệ hơn hồi quy tuyến tính đơn giản không?" Vâng, tất nhiên nó có thể. Các mô hình dựa trên cây có chức năng hồi quy là một hàm bước rất phức tạp. Nếu dữ liệu thực sự đến từ (hoạt động như mô phỏng từ) một mô hình tuyến tính, thì các hàm bước có thể là một xấp xỉ xấu. Và, như được thể hiện bằng các ví dụ trong câu trả lời khác, các mô hình dựa trên cây có thể ngoại suy xấu ngoài phạm vi của các dự đoán quan sát được. Bạn cũng có thể thử Randomforrest và xem nó tốt hơn bao nhiêu so với một cây.