Thuật ngữ của spline có thể gây nhầm lẫn (ít nhất là tôi thấy nó như vậy) như chính xác những gì mọi người có nghĩa là khi họ sử dụng "spline khối", ví dụ, phụ thuộc vào loại spline khối; chúng ta có thể có, ví dụ, cả spline làm mịn khối và spline hồi quy khối (bị phạt).
Những gì tôi phác thảo dưới đây được lấy từ phần 5.1.2 và 5.2 của Gỗ (2017).
Một spline nội suy sẽ đặt khi nó nội suy các quan sát thông qua một hàm gồm các phần của đa thức bậc ba được nối sao cho spline liên tục với đạo hàm thứ hai.g( xTôi)g( xTôi) = yTôiyTôi
Một spline làm mịn khối nhằm mục đích cân bằng phù hợp với dữ liệu với việc tạo ra một chức năng trơn tru; Mục đích không phải là nội suy dữ liệu phát sinh trong các phép nội suy. Thay vì đặt , một spline làm mịn khối đóng vai trò là tham số miễn phí được ước tính để giảm thiểu (Wood, 2017)g( xTôi) = yTôin
∑i=1n{yi−g(xi)}2+λ∫g′′(x)2dx
trong đó phần thứ nhất là thước đo mức độ phù hợp với dữ liệu, trong khi phần thứ hai là một hình phạt chống lại sự ngu ngốc (nó là tổng thể của đạo hàm bậc hai của spline như là thước đo độ cong hoặc độ uốn cong, tốc độ của đường cong thay đổi độ dốc). Chúng ta có thể nghĩ về sự ngu ngốc là sự phức tạp vì vậy chức năng bao gồm một hình phạt chống lại sự trơn tru quá phức tạp.
Có thể chỉ ra rằng một spline làm mịn khối , của tất cả các hàm có thể , là các hàm giảm thiểu tiêu chí trên (một bằng chứng được đưa ra trong Wood, 2017, phần 5.1.2 trang 198).g(x)f
Như với một spline nội suy, một spline làm mịn hình khối có các nút nằm ở mỗi cặp quan sát , . Trước đó tôi đã đề cập rằng một spline làm mịn có tham số miễn phí; có nhiều tham số như dữ liệu. Tuy nhiên, hiệu quả của , hình phạt chống lại sự nhẵn nhụi, là tạo ra một spline mượt mà hơn nhiều so với ngụ ý nếu nó sử dụng bậc tự do (Wood 2017).xiyinλn
Đây là tiêu cực chính về phía làm mịn splines. Bạn phải ước tính số lượng tham số như bạn có dữ liệu và hiệu quả của nhiều tham số đó nói chung sẽ thấp vì hình phạt đối với sự phù hợp quá phức tạp (wiggly).
Cân bằng điều này là thực tế rằng sự lựa chọn các nút thắt trong spline làm mịn được quan tâm, bởi vì không có sự lựa chọn.
Chuyển đến cài đặt spline hồi quy bị phạt, bây giờ chúng ta có lựa chọn nơi đặt các nút thắt nhưng chúng ta có thể chọn bao nhiêu nút để sử dụng. Làm thế nào chúng ta có thể quyết định nếu đây là một sự đánh đổi hữu ích, rằng nó có lợi để phù hợp với spline với số lượng nút thắt giảm đi ngay cả khi chúng ta phải quyết định số lượng và đặt chúng ở đâu?
Trong một spline hồi quy bị phạt, thay vì nghĩ về các nút thắt, hãy nghĩ về spline như được tạo thành từ các hàm cơ bản; đây là các hàm nhỏ, mỗi hàm có một hệ số, có tổ hợp tuyến tính cho giá trị của spline cho cho . Lựa chọn bây giờ là có bao nhiêu hàm cơ bản được sử dụng để mô hình hóa phản hồi với số nhỏ hơn nhiều so với số lượng dữ liệu . Lý thuyết về lựa chọn này bị giới hạn hoặc hạn chế một chút trong các trường hợp đặc biệt hoặc cách tiếp cận để ước tính giá trị cho nhưng ý tưởng chung là số lượng các hàm cơ bản được yêu cầu chỉ tăng chậm với k n λ nxiknλn để đạt được hiệu suất tối ưu được thể hiện bằng cách làm mịn các spline (tóm tắt từ Wood 2017).
Nói chung, nơi các nút thực sự được phân phối thông qua dữ liệu cho một spline hồi quy bậc ba không có nhiều ảnh hưởng đến spline được trang bị. Các lựa chọn điển hình là đặt nút đều trên khoảng hoặc đặt các nút ở các lượng tử phân bố của . Nếu bạn có một phạm vi quan sát rất không đồng đều trên phạm vi , sẽ thật lãng phí khi đặt các nút thắt đều trên để bạn có thể tập trung chúng vào nơi bạn có dữ liệu. Ngoài ra, chuyển đổi theo một cách nào đó thậm chí có thể ra phân phối sao cho việc đặt các nút thắt đều có thể trở lại.x x x x xk−1xxxxx
Khi điều chỉnh mô hình spline ở kích thước cao, giả sử một spline gồm hai biến, vị trí nút sẽ gặp nhiều vấn đề hơn nếu các cặp bị giới hạn ở một số vùng của không gian được kéo dài bởi và ; nếu dữ liệu không bắt nguồn từ các phần lớn của không gian, thì việc đặt các nút thắt đồng đều sẽ dẫn đến nhiều nút được đặt cách xa sự hỗ trợ của dữ liệu. Mà là lãng phí. Các chiến lược để xử lý có sẵn, chẳng hạn như thuật toán lấp đầy không gian hoặc sử dụng P-splines và các hình phạt dựa trên đạo hàm thưa thớt cho phép ước tính hiệu quả ngay cả trong dữ liệu phân bố không đều (ví dụ Wood 2016) x 1 x 2x1i,x2ix1x2
Người giới thiệu
Wood, SN 2016. P-splines với các hình phạt dựa trên đạo hàm và làm mịn sản phẩm tenxơ của dữ liệu phân phối không đồng đều. Thống kê Tính toán. 1 trận5. doi: 10.1007 / s11222-016-9666-x ( Truy cập mở )
Wood, SN 2017. Các mô hình phụ gia tổng quát: Giới thiệu với R, Ấn bản thứ hai, CRC Press.