Hồi quy OLS cơ bản là một kỹ thuật rất tốt để khớp một chức năng với một tập hợp dữ liệu. Tuy nhiên, hồi quy đơn giản chỉ phù hợp với một đường thẳng không đổi cho toàn bộ phạm vi có thể của . Điều này có thể không thích hợp cho một tình huống nhất định. Ví dụ, dữ liệu đôi khi hiển thị mộtmối quan hệ độcong. Điều này có thể được xử lý bằng cách hồi quy Y thành phép biến đổi X , f ( X ) . Biến đổi khác nhau là có thể. Trong tình huống mối quan hệ giữa X và Y làđơn điệu, nhưng liên tục tắt, mộtbiến đổi nhật kýXYXf( X)XYcó thể được sử dụng. Một lựa chọn phổ biến khác là sử dụng đa thức trong đó các thuật ngữ mới được hình thành bằng cách nâng lên một loạt các lũy thừa (ví dụ: X 2 , X 3 , v.v.). Chiến lược này rất dễ thực hiện và bạn có thể diễn giải sự phù hợp như cho bạn biết có bao nhiêu 'uốn cong' tồn tại trong dữ liệu của bạn (trong đó số lần uốn bằng với công suất cao nhất cần thiết trừ đi 1). XX2X3
Tuy nhiên, hồi quy dựa trên logarit hoặc số mũ của hiệp phương sai sẽ chỉ phù hợp tối ưu khi đó là bản chất chính xác của mối quan hệ thực sự. Hoàn toàn hợp lý khi tưởng tượng rằng có một mối quan hệ về độ cong giữa và Y khác với các khả năng mà các phép biến đổi có thể có. Vì vậy, chúng tôi đến với hai chiến lược khác. Cách tiếp cận đầu tiên là hoàng thổ , một loạt các hồi quy tuyến tính có trọng số được tính toán trên một cửa sổ chuyển động. Cách tiếp cận này cũ hơn và phù hợp hơn với phân tích dữ liệu thăm dò . XY
Cách tiếp cận khác là sử dụng splines. Đơn giản nhất, spline là một thuật ngữ mới chỉ áp dụng cho một phần của phạm vi . Ví dụ: X có thể nằm trong khoảng từ 0 đến 1 và thuật ngữ spline chỉ có thể nằm trong khoảng từ .7 đến 1. Trong trường hợp này, .7 lànút thắt. Một thuật ngữ spline đơn giản, tuyến tính sẽ được tính như thế này:
X s p l i n e = { 0XX
Xs p l i n e= { 0X- .7nếu X≤ .7nếu X> .7
và sẽ được thêm vào mô hình của bạn,
ngoài thuật ngữ
ban đầu . Mô hình được trang bị sẽ hiển thị một sự phá vỡ mạnh ở 0,7 với một đường thẳng từ 0 đến 0,7 và đường tiếp tục với độ dốc khác nhau từ 0,7 đến 1. Tuy nhiên, một thuật ngữ spline không cần phải tuyến tính. Cụ thể, người ta đã xác định rằng các khối vuông đặc biệt hữu ích (ví dụ:
X 3 s p l i n eXX3s p l i n e). Sự phá vỡ sắc nét cũng không cần phải ở đó. Các thuật toán đã được phát triển để hạn chế các tham số được trang bị sao cho các đạo hàm thứ nhất và thứ hai khớp với các nút, điều này làm cho các nút không thể phát hiện được ở đầu ra. Kết quả cuối cùng của tất cả điều này là chỉ với một vài hải lý (thường là 3-5) tại các địa điểm lựa chọn (mà phần mềm có thể xác định cho bạn) có thể tái tạo khá nhiều
bất kỳđường cong. Hơn nữa, mức độ tự do được tính toán chính xác, vì vậy bạn có thể tin tưởng vào kết quả, điều này không đúng khi bạn xem dữ liệu của mình trước và sau đó quyết định điều chỉnh một thuật ngữ bình phương vì bạn thấy đường cong. Ngoài ra, tất cả những thứ này chỉ là một phiên bản khác (mặc dù phức tạp hơn) của mô hình tuyến tính cơ bản. Do đó, mọi thứ chúng ta có được với các mô hình tuyến tính đều đi kèm với điều này (ví dụ: dự đoán, phần dư, dải tin cậy, kiểm tra, v.v.) Đây là những lợi thế
đáng kể .
Giới thiệu đơn giản nhất về những chủ đề mà tôi biết là: