Gần đây tôi đã thực hiện một chút trong ứng dụng trình duyệt mà bạn có thể sử dụng để chơi với những ý tưởng sau: Scatterplot Smoothers (*).
Đây là một số dữ liệu tôi tạo ra, với sự phù hợp đa thức mức độ thấp
Rõ ràng là đa thức bậc hai không đủ linh hoạt để cung cấp dữ liệu phù hợp với dữ liệu. Chúng tôi có các khu vực có độ lệch rất cao, từ đến tất cả dữ liệu nằm dưới mức phù hợp và sau tất cả dữ liệu nằm trên đường cong.0.60.850.85
Để loại bỏ sự thiên vị, chúng ta có thể tăng mức độ của đường cong lên ba, nhưng vấn đề vẫn còn, đường cong khối vẫn còn quá cứng nhắc
Vì vậy, chúng tôi tiếp tục tăng mức độ, nhưng bây giờ chúng tôi phải chịu vấn đề ngược lại
Đường cong này theo dõi dữ liệu quá chặt chẽ và có xu hướng bay theo các hướng không được tạo ra bởi các mẫu chung trong dữ liệu. Đây là nơi chính quy hóa xuất hiện. Với cùng một đường cong mức độ (mười) và một số chính quy hóa được lựa chọn tốt
Chúng tôi có được một phù hợp thực sự tốt đẹp!
Nó đáng để tập trung một chút vào một khía cạnh được lựa chọn tốt ở trên. Khi bạn phù hợp với đa thức với dữ liệu, bạn có một bộ các lựa chọn riêng biệt cho mức độ. Nếu một đường cong ba độ là không phù hợp và một đường cong bốn độ là quá phù hợp, bạn không có nơi nào để đi ở giữa. Chính quy hóa giải quyết vấn đề này, vì nó cung cấp cho bạn một loạt các tham số phức tạp để chơi.
làm thế nào để bạn tuyên bố "Chúng tôi có một sự phù hợp thực sự tốt đẹp!". Đối với tôi tất cả chúng trông giống nhau, cụ thể là, không kết luận. Những lý do nào bạn đang sử dụng để quyết định thế nào là đẹp và phù hợp?
Điểm công bằng.
Giả định tôi đưa ra ở đây là một mô hình phù hợp tốt sẽ không có mô hình rõ ràng trong phần dư. Bây giờ, tôi không vẽ các phần dư, vì vậy bạn phải thực hiện một chút công việc khi nhìn vào các bức tranh, nhưng bạn sẽ có thể sử dụng trí tưởng tượng của mình.
Trong hình đầu tiên, với đường cong bậc hai phù hợp với dữ liệu, tôi có thể thấy mẫu sau trong phần dư
- Từ 0,0 đến 0,3 chúng được đặt đều trên và dưới đường cong.
- Từ 0,3 đến khoảng 0,55 tất cả các điểm dữ liệu nằm trên đường cong.
- Từ 0,55 đến khoảng 0,85 tất cả các điểm dữ liệu nằm dưới đường cong.
- Từ 0,85 trở đi, tất cả đều ở trên đường cong một lần nữa.
Tôi muốn coi những hành vi này là thiên vị cục bộ , có những vùng mà đường cong không gần đúng với giá trị trung bình có điều kiện của dữ liệu.
So sánh điều này với sự phù hợp cuối cùng, với spline khối. Tôi không thể chọn bất kỳ khu vực nào bằng mắt mà sự phù hợp không giống như nó chạy chính xác qua trung tâm khối lượng của các điểm dữ liệu. Điều này nói chung (mặc dù không chính xác) những gì tôi muốn nói là phù hợp.
Lưu ý cuối cùng : Lấy tất cả điều này làm minh họa. Trong thực tế, tôi không khuyên bạn nên sử dụng các mở rộng cơ sở đa thức cho bất kỳ mức độ nào cao hơn . Các vấn đề của họ được thảo luận tốt ở nơi khác, nhưng, ví dụ:2
- Hành vi của họ tại ranh giới dữ liệu của bạn có thể rất hỗn loạn, ngay cả với việc thường xuyên hóa.
- Họ không phải là người địa phương trong bất kỳ ý nghĩa. Thay đổi dữ liệu của bạn ở một nơi có thể ảnh hưởng đáng kể đến sự phù hợp ở một nơi rất khác.
Tôi thay vào đó, trong một tình huống như bạn mô tả, khuyên bạn nên sử dụng các khối vuông tự nhiên cùng với chính quy, điều này mang lại sự thỏa hiệp tốt nhất giữa tính linh hoạt và sự ổn định. Bạn có thể tự mình nhìn thấy bằng cách lắp một số spline trong ứng dụng.
(*) Tôi tin rằng điều này chỉ hoạt động trong chrome và firefox do tôi sử dụng một số tính năng javascript hiện đại (và nói chung là lười biếng để sửa nó trong safari và tức là). Mã nguồn là ở đây , nếu bạn quan tâm.