B-Splines VS đa thức bậc cao trong hồi quy


10

Tôi không có một ví dụ cụ thể hoặc nhiệm vụ trong tâm trí. Tôi chỉ mới sử dụng b-splines và tôi muốn hiểu rõ hơn về chức năng này trong bối cảnh hồi quy.

Giả sử rằng chúng tôi muốn đánh giá mối quan hệ giữa biến trả lời và một số dự đoán . Các dự đoán bao gồm một số biến số cũng như một số biến phân loại.yx1,x2,...,xp

Giả sử sau khi điều chỉnh mô hình hồi quy, một trong các biến số, ví dụ là có ý nghĩa. Một bước hợp lý sau đó là đánh giá xem các đa thức bậc cao hơn, ví dụ: và được yêu cầu để giải thích thỏa đáng mối quan hệ mà không cần quá mức.x1x12x13

Câu hỏi của tôi là:

  1. Tại thời điểm nào bạn đã chọn giữa b-splines hoặc đa thức bậc cao đơn giản. ví dụ: trong R:

    y ~ poly(x1,3) + x2 + x3
    

    đấu với

     y ~ bs(x1,3) + x2 + x3
    
  2. Làm thế nào bạn có thể sử dụng các lô để thông báo sự lựa chọn của mình giữa hai thứ đó và điều gì xảy ra nếu nó không thực sự rõ ràng từ các lô (ví dụ: do số lượng điểm dữ liệu khổng lồ)

  3. Bạn đánh giá các điều khoản tương tác hai chiều giữa và giả sửx2x3

  4. Làm thế nào để thay đổi ở trên cho các loại mô hình khác nhau

  5. Bạn có cân nhắc không bao giờ sử dụng đa thức bậc cao và luôn lắp b-splines và xử phạt tính linh hoạt cao không?


9
Tôi đã viết về điều này rộng rãi ở đây: madrury.github.io/jekyll/update/statistic/2017/08/04/ chủ
Matthew Drury

Cho rằng phát triển tốt như thế nào mgcv, tại sao không sử dụng mô hình phụ gia (tổng quát). Lựa chọn độ mịn là tự động, và các phương pháp suy luận được phát triển tốt.
generic_user

Câu trả lời:


17

Tôi thường chỉ xem xét các spline hơn là đa thức. Đa thức không thể mô hình hóa ngưỡng và thường không có tính toàn cầu, tức là, các quan sát tại một phạm vi của yếu tố dự đoán có ảnh hưởng mạnh mẽ đến những gì mô hình thực hiện ở một phạm vi khác ( Magee, 1998, Chiến lược mô hình hồi quy của MỹThống kê của Frank Harrell ). Và tất nhiên các spline bị hạn chế là tuyến tính bên ngoài các nút cực trị sẽ tốt hơn cho phép ngoại suy, hoặc thậm chí là nội suy ở các giá trị cực trị của các yếu tố dự đoán.

Một trường hợp mà bạn có thể muốn xem xét đa thức là khi điều quan trọng là phải giải thích mô hình của bạn cho một đối tượng phi kỹ thuật. Mọi người hiểu đa thức tốt hơn spline. (Chỉnh sửa: Matthew Drury chỉ ra rằng mọi người chỉ có thể nghĩ rằng họ hiểu đa thức tốt hơn spline. Tôi sẽ không đứng về phía câu hỏi này.)

Cốt truyện thường không hữu ích lắm trong việc quyết định giữa các cách xử lý phi tuyến khác nhau. Tốt hơn để làm xác nhận chéo. Điều này cũng sẽ giúp bạn đánh giá các tương tác, hoặc tìm ra một hình phạt tốt.

Cuối cùng, câu trả lời của tôi không thay đổi với loại mô hình, bởi vì các điểm trên là hợp lệ cho bất kỳ mô hình thống kê hoặc ML nào.


Cảm ơn rất nhiều cho câu trả lời của bạn, nó rất hữu ích. Chỉ cần một câu hỏi tiếp theo nhanh chóng. Có một cách "nhà nước của nghệ thuật" để tìm các nút thắt? Dự đoán tốt nhất của tôi sẽ là 1) Sử dụng trực giác, ví dụ: nếu biến đại diện cho thời gian tính theo tháng thì sử dụng nút thắt cứ sau 6 hoặc 12? 2) giới thiệu một chuỗi đi qua phạm vi của biến và sử dụng xác nhận chéo để tìm các nút thắt tối ưu có thể?
Vasilis Vasileiou

8
Mọi người nghĩ rằng họ hiểu đa thức tốt hơn spline.
Matthew Drury

3
Về vị trí nút: xác thực chéo là một cách tiếp cận, nhưng thành thật mà nói, tôi nghĩ rằng kết quả sẽ không nhạy cảm khi biết vị trí, miễn là các nút được đặt hợp lý và không tập hợp quá nhiều. Frank Harrell có một bảng với các vị trí nút heuristic về mặt lượng tử phân phối của người dự đoán trong Chiến lược mô hình hồi quy .
Stephan Kolassa

1
Mặc dù câu trả lời của bạn là hoàn toàn hợp lệ trong bối cảnh này, nhưng tuyên bố của bạn rất mạnh mẽ khi xem xét rằng nhiều quy trình trong thế giới thực có thể được mô hình hóa tốt hơn bằng đa thức.
koalo

6

Trong phần 7.4.5 của "Các yếu tố của học thống kê", người ta nói rằng spline thường cho kết quả vượt trội hơn so với hồi quy đa thức, bởi vì:

  • Nó tạo ra sự phù hợp linh hoạt;
  • Sản xuất ước tính ổn định hơn;
  • Đa thức có thể tạo ra kết quả không mong muốn tại các ranh giới.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.