Những lợi thế / bất lợi của việc sử dụng spline, spline được làm mịn và trình mô phỏng quá trình gaussian là gì?


20

Tôi quan tâm đến việc học (và thực hiện) một giải pháp thay thế cho phép nội suy đa thức.

Tuy nhiên, tôi gặp khó khăn khi tìm một mô tả hay về cách các phương thức này hoạt động, cách chúng liên quan và cách so sánh.

Tôi sẽ đánh giá cao ý kiến ​​của bạn về những ưu / nhược điểm / điều kiện theo đó các phương pháp hoặc giải pháp thay thế này sẽ hữu ích, nhưng một số tài liệu tham khảo tốt về văn bản, trang trình bày hoặc podcast là đủ.


Đây thực sự là một câu hỏi rất thú vị, nhưng có lẽ (chỉ có thể) phù hợp hơn với math.stackexchange.com ?
steffen

Có một số tài liệu về spline và làm mịn splines trong Các yếu tố của học thống kê của Hastie et al.
NPE

8
Tôi nghĩ rằng đây là một câu hỏi hoàn toàn hợp lý về thống kê tính toán.
csgillespie

@csgillespie: Tất cả những gì tôi biết về splines và phép nội suy tôi đã học trong các bài giảng về toán / số. Do đó tôi có thể hơi thiên vị;).
steffen

Câu trả lời:


24

Hồi quy OLS cơ bản là một kỹ thuật rất tốt để khớp một chức năng với một tập hợp dữ liệu. Tuy nhiên, hồi quy đơn giản chỉ phù hợp với một đường thẳng không đổi cho toàn bộ phạm vi có thể của . Điều này có thể không thích hợp cho một tình huống nhất định. Ví dụ, dữ liệu đôi khi hiển thị mộtmối quan hệ độcong. Điều này có thể được xử lý bằng cách hồi quy Y thành phép biến đổi X , f ( X ) . Biến đổi khác nhau là có thể. Trong tình huống mối quan hệ giữa X Yđơn điệu, nhưng liên tục tắt, mộtbiến đổi nhật kýXYXf(X)XYcó thể được sử dụng. Một lựa chọn phổ biến khác là sử dụng đa thức trong đó các thuật ngữ mới được hình thành bằng cách nâng lên một loạt các lũy thừa (ví dụ: X 2 , X 3 , v.v.). Chiến lược này rất dễ thực hiện và bạn có thể diễn giải sự phù hợp như cho bạn biết có bao nhiêu 'uốn cong' tồn tại trong dữ liệu của bạn (trong đó số lần uốn bằng với công suất cao nhất cần thiết trừ đi 1). XX2X3

Tuy nhiên, hồi quy dựa trên logarit hoặc số mũ của hiệp phương sai sẽ chỉ phù hợp tối ưu khi đó là bản chất chính xác của mối quan hệ thực sự. Hoàn toàn hợp lý khi tưởng tượng rằng có một mối quan hệ về độ cong giữa Y khác với các khả năng mà các phép biến đổi có thể có. Vì vậy, chúng tôi đến với hai chiến lược khác. Cách tiếp cận đầu tiên là hoàng thổ , một loạt các hồi quy tuyến tính có trọng số được tính toán trên một cửa sổ chuyển động. Cách tiếp cận này cũ hơn và phù hợp hơn với phân tích dữ liệu thăm dò . XY

Cách tiếp cận khác là sử dụng splines. Đơn giản nhất, spline là một thuật ngữ mới chỉ áp dụng cho một phần của phạm vi . Ví dụ: X có thể nằm trong khoảng từ 0 đến 1 và thuật ngữ spline chỉ có thể nằm trong khoảng từ .7 đến 1. Trong trường hợp này, .7 lànút thắt. Một thuật ngữ spline đơn giản, tuyến tính sẽ được tính như thế này: X s p l i n e = { 0XX

XSptôitôine= ={0nếu X.7X-.7nếu X>.7

và sẽ được thêm vào mô hình của bạn, ngoài thuật ngữ ban đầu . Mô hình được trang bị sẽ hiển thị một sự phá vỡ mạnh ở 0,7 với một đường thẳng từ 0 đến 0,7 và đường tiếp tục với độ dốc khác nhau từ 0,7 đến 1. Tuy nhiên, một thuật ngữ spline không cần phải tuyến tính. Cụ thể, người ta đã xác định rằng các khối vuông đặc biệt hữu ích (ví dụ: X 3 s p l i n eXXSptôitôine3). Sự phá vỡ sắc nét cũng không cần phải ở đó. Các thuật toán đã được phát triển để hạn chế các tham số được trang bị sao cho các đạo hàm thứ nhất và thứ hai khớp với các nút, điều này làm cho các nút không thể phát hiện được ở đầu ra. Kết quả cuối cùng của tất cả điều này là chỉ với một vài hải lý (thường là 3-5) tại các địa điểm lựa chọn (mà phần mềm có thể xác định cho bạn) có thể tái tạo khá nhiều bất kỳđường cong. Hơn nữa, mức độ tự do được tính toán chính xác, vì vậy bạn có thể tin tưởng vào kết quả, điều này không đúng khi bạn xem dữ liệu của mình trước và sau đó quyết định điều chỉnh một thuật ngữ bình phương vì bạn thấy đường cong. Ngoài ra, tất cả những thứ này chỉ là một phiên bản khác (mặc dù phức tạp hơn) của mô hình tuyến tính cơ bản. Do đó, mọi thứ chúng ta có được với các mô hình tuyến tính đều đi kèm với điều này (ví dụ: dự đoán, phần dư, dải tin cậy, kiểm tra, v.v.) Đây là những lợi thế đáng kể .

Giới thiệu đơn giản nhất về những chủ đề mà tôi biết là:


6

Các ghi chú trực tuyến của Cosma Shalizi trong bài giảng của mình Phân tích dữ liệu nâng cao từ quan điểm cơ bản là khá tốt về chủ đề này, nhìn mọi thứ từ góc độ trong đó phép nội suy và hồi quy là hai cách tiếp cận cho cùng một vấn đề. Tôi đặc biệt thu hút sự chú ý của bạn vào các chương về phương pháp làm mịnspline .


Liên kết của bạn có thể sử dụng cập nhật. Tôi đã thử, nhưng bạn nên kiểm tra xem các chỉnh sửa được đề xuất của tôi có đạt được các trang bạn dự định không.
Gregor
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.