Làm thế nào khác nhau được giới hạn khối splines và splines bị phạt?

Tôi đang đọc rất nhiều về việc sử dụng spline trong các vấn đề hồi quy khác nhau. Một số sách (ví dụ: Mô hình tuyến tính đa dạng Hodges Richly ) đề nghị các spline bị phạt. Những người khác (ví dụ: Chiến lược mô hình hồi quy của Mitchell ) lựa chọn cho các khối vuông bị hạn chế.

Làm thế nào khác nhau, trong thực tế? Bạn có thường nhận được kết quả khác nhau đáng kể từ việc sử dụng cái này hay cái kia không? Liệu cái này hay cái kia có lợi thế đặc biệt?

regression splines

— Peter Flom
nguồn

Từ cách đọc của tôi, hai khái niệm bạn yêu cầu chúng tôi so sánh là những con thú khá khác nhau và sẽ yêu cầu một sự so sánh giống như táo và cam. Điều này làm cho nhiều câu hỏi của bạn hơi khó xử - lý tưởng (giả sử người ta có thể viết một hình phạt ngu ngốc cho cơ sở RCS ở dạng bắt buộc) bạn sẽ sử dụng mô hình spline hồi quy khối bị hạn chế bị phạt.

Splines giới hạn khối

Một spline khối bị hạn chế (hoặc một spline tự nhiên) là một cơ sở spline được xây dựng từ các hàm đa thức khối piecewise nối liền nhau tại một số vị trí hoặc nút thắt được chỉ định trước. Điều khác biệt giữa một spline hình khối bị hạn chế với một spline hình khối là các ràng buộc bổ sung được áp đặt cho phiên bản giới hạn sao cho spline là tuyến tính trước nút thắt đầu tiên và sau nút thắt cuối cùng. Này được thực hiện để cải thiện hiệu suất của spline trong đuôi của . $X$

Lựa chọn mô hình với RCS thường liên quan đến việc chọn số lượng nút thắt và vị trí của chúng, với quy định trước đây về cách thức kết nối uốn lượn hoặc phức tạp. Trừ khi có một số bước tiếp theo được thực hiện để chuẩn hóa các hệ số ước tính khi khớp mô hình, thì số lượng nút thắt trực tiếp kiểm soát độ phức tạp spline.

Điều này có nghĩa là người dùng có một số vấn đề cần khắc phục khi ước tính mô hình có chứa một hoặc nhiều thuật ngữ RCS:

Có bao nhiêu nút thắt để sử dụng?,
Nơi đặt những nút thắt đó trong khoảng ?, $X$
Làm thế nào để so sánh các mô hình với số lượng nút khác nhau?

Theo cách riêng của họ, các điều khoản RCS yêu cầu sự can thiệp của người dùng để giải quyết những vấn đề này.

Splinesized splines

Splines hồi quy hình phạt (Sensu Hodges) về vấn đề giải quyết riêng của họ 3. chỉ, nhưng họ cho phép vấn đề 1. được phá vỡ. Ý tưởng ở đây là cũng như việc mở rộng cơ sở của , và bây giờ chúng ta hãy giả sử đây là một cơ sở spline hình khối, bạn cũng tạo ra một ma trận hình phạt ngu ngốc. Wiggliness được đo bằng một số dẫn xuất của spline ước tính, với đạo hàm tiêu biểu được sử dụng là đạo hàm bậc hai, và hình phạt bản thân đại diện cho đạo hàm bậc hai bình phương tích hợp trong phạm vi của . Hình phạt này có thể được viết dưới dạng bậc hai như $X$ $X$

β^{T} S β

$\boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

trong đó là ma trận hình phạt và là các hệ số mô hình. Sau đó, giá trị hệ số được tìm thấy để tối đa hóa phạt loga ceriterion $\boldsymbol{S}$ $\boldsymbol{\beta}$ $\mathcal{L}_p$

L_{p} = L - λ β^{T} S β

$\mathcal{L}_p = \mathcal{L} - \lambda \boldsymbol{\beta}^{\mathsf{T}} \boldsymbol{S} \boldsymbol{\beta}$

trong đó là khả năng ghi nhật ký của mô hình và là tham số độ mịn, điều khiển mức độ mạnh mẽ để xử phạt độ rung của spline. $\mathcal{L}$ $\lambda$

Vì khả năng đăng nhập bị phạt có thể được đánh giá theo các hệ số của mô hình, việc điều chỉnh mô hình này có hiệu quả trở thành một vấn đề trong việc tìm giá trị tối ưu cho trong khi cập nhật các hệ số trong quá trình tìm kiếm tối ưu đó . $\lambda$ $\lambda$

$\lambda$ có thể được chọn bằng cách sử dụng xác thực chéo, xác thực chéo tổng quát (GCV) hoặc khả năng cận biên hoặc tiêu chí khả năng cận biên bị hạn chế. Hai phần sau lấy lại một cách hiệu quả mô hình spline như một mô hình hiệu ứng hỗn hợp (các phần hoàn toàn nhẵn của cơ sở trở thành các hiệu ứng cố định và các phần gợn sóng của cơ sở là các hiệu ứng ngẫu nhiên và tham số độ mịn liên quan nghịch với thuật ngữ phương sai cho các hiệu ứng ngẫu nhiên ), đó là những gì Hodges đang xem xét trong cuốn sách của mình.

Tại sao điều này giải quyết vấn đề sử dụng bao nhiêu nút thắt? Vâng, nó chỉ là loại làm điều đó. Điều này giải quyết vấn đề không yêu cầu nút thắt tại mỗi điểm dữ liệu duy nhất (một spline làm mịn), nhưng bạn vẫn cần chọn bao nhiêu nút hoặc chức năng cơ bản để sử dụng. Tuy nhiên, vì hình phạt thu nhỏ các hệ số mà bạn có thể bỏ qua khi chọn kích thước cơ sở lớn như bạn nghĩ là cần thiết để chứa chức năng thực sự hoặc gần đúng với nó, và sau đó bạn để cho hình phạt kiểm soát mức độ uốn cong ước tính cuối cùng là, với tính linh hoạt tiềm năng thêm có sẵn trong cơ sở bị loại bỏ hoặc kiểm soát bởi hình phạt.

So sánh

Splines Penalized (hồi quy) và RCS là những khái niệm khá khác nhau. Không có gì ngăn cản bạn tạo ra một cơ sở RCS và một hình phạt liên quan ở dạng bậc hai và sau đó ước tính các hệ số spline bằng cách sử dụng các ý tưởng từ mô hình spline hồi quy bị phạt.

RCS chỉ là một loại cơ sở mà bạn có thể sử dụng để tạo cơ sở spline và spline hồi quy bị phạt là một cách để ước tính một mô hình có chứa một hoặc nhiều spline với hình phạt wiggling liên quan.

Chúng ta có thể tránh các vấn đề 1., 2. và 3.?

Có, ở một mức độ nào đó, với một cơ sở spline tấm mỏng (TPS). Cơ sở Một TPS có nhiều chức năng cơ bản như giá trị dữ liệu độc đáo trong . Những gì Wood (2003) đã chỉ ra là bạn có thể tạo ra một cơ sở Spline Hồi quy Tấm mỏng (TPRS) sử dụng phép phân tích các hàm cơ sở TPS và chỉ giữ lại giá trị lớn nhất đầu tiên . Bạn vẫn phải chỉ định $X$ $k$ $k$ , số lượng các hàm cơ bản bạn muốn sử dụng, nhưng sự lựa chọn nói chung dựa trên mức độ bạn mong đợi của hàm được trang bị và mức độ tính toán mà bạn sẵn sàng thực hiện. Không cần chỉ định vị trí nút thắt, và hình phạt thu nhỏ các hệ số để người ta tránh được vấn đề lựa chọn mô hình vì bạn chỉ có một mô hình bị phạt không có nhiều mô hình không được đánh giá với số lượng nút khác nhau.

P-splines

Để làm cho mọi thứ phức tạp hơn, có một loại cơ sở spline được gọi là P-spline (Eilers & Marx, 1996)), trong đó thường bị hiểu là "bị phạt". P-splines là một cơ sở B-spline với một hình phạt khác biệt được áp dụng trực tiếp cho các hệ số mô hình. Trong sử dụng điển hình, hình phạt P-spline sẽ xử phạt sự khác biệt bình phương giữa các hệ số mô hình liền kề, từ đó xử phạt sự ngu ngốc. P-splines rất dễ thiết lập và dẫn đến một ma trận hình phạt thưa thớt khiến chúng rất dễ ước tính các thuật ngữ spline trong các mô hình Bayesian dựa trên MCMC (Wood, 2017). $P$

Người giới thiệu

Eiler, PHC và BD Marx. 1996. Làm mịn linh hoạt với -splines và hình phạt. Thống kê Khoa học.

Wood, SN 2003. Splines tấm hồi quy mỏng. Thống kê JR. Sóc. Dòng B Stat. Phương pháp. 65: 95 bóng114. doi: 10.111 / 1467-9868.00374

Wood, SN 2017. Các mô hình phụ gia tổng quát: Giới thiệu với R, Ấn bản thứ hai, CRC Press.

— Gôrôn Simpson
nguồn

+6, điều trị tuyệt vời. Nhắc nhở tôi trong một vài ngày, nếu tôi quên, và tôi sẽ đặt tiền thưởng cho việc này.

— gung - Phục hồi Monica

Cảm ơn vì điều đó!

— Peter Flom

Tiền thưởng??????

— kjetil b halvorsen