Tại sao sử dụng chính quy trong hồi quy đa thức thay vì hạ thấp mức độ?


32

Ví dụ, khi thực hiện hồi quy, hai tham số siêu cần chọn thường là dung lượng của hàm (ví dụ: số mũ lớn nhất của đa thức) và lượng chính quy. Điều tôi bối rối là, tại sao không chỉ chọn một hàm có dung lượng thấp, và sau đó bỏ qua bất kỳ quy tắc chính quy nào? Theo cách đó, nó sẽ không phù hợp. Nếu tôi có chức năng công suất cao cùng với chính quy hóa, chẳng phải điều đó cũng giống như có chức năng công suất thấp và không có chính quy?

Câu trả lời:


49

Gần đây tôi đã thực hiện một chút trong ứng dụng trình duyệt mà bạn có thể sử dụng để chơi với những ý tưởng sau: Scatterplot Smoothers (*).

Đây là một số dữ liệu tôi tạo ra, với sự phù hợp đa thức mức độ thấp

Phù hợp bậc hai

Rõ ràng là đa thức bậc hai không đủ linh hoạt để cung cấp dữ liệu phù hợp với dữ liệu. Chúng tôi có các khu vực có độ lệch rất cao, từ đến tất cả dữ liệu nằm dưới mức phù hợp và sau tất cả dữ liệu nằm trên đường cong.0.60.850.85

Để loại bỏ sự thiên vị, chúng ta có thể tăng mức độ của đường cong lên ba, nhưng vấn đề vẫn còn, đường cong khối vẫn còn quá cứng nhắc

Khối vừa vặn

Vì vậy, chúng tôi tiếp tục tăng mức độ, nhưng bây giờ chúng tôi phải chịu vấn đề ngược lại

Mười độ phù hợp

Đường cong này theo dõi dữ liệu quá chặt chẽ và có xu hướng bay theo các hướng không được tạo ra bởi các mẫu chung trong dữ liệu. Đây là nơi chính quy hóa xuất hiện. Với cùng một đường cong mức độ (mười) và một số chính quy hóa được lựa chọn tốt

Bằng mười thường xuyên

Chúng tôi có được một phù hợp thực sự tốt đẹp!

Nó đáng để tập trung một chút vào một khía cạnh được lựa chọn tốt ở trên. Khi bạn phù hợp với đa thức với dữ liệu, bạn có một bộ các lựa chọn riêng biệt cho mức độ. Nếu một đường cong ba độ là không phù hợp và một đường cong bốn độ là quá phù hợp, bạn không có nơi nào để đi ở giữa. Chính quy hóa giải quyết vấn đề này, vì nó cung cấp cho bạn một loạt các tham số phức tạp để chơi.

làm thế nào để bạn tuyên bố "Chúng tôi có một sự phù hợp thực sự tốt đẹp!". Đối với tôi tất cả chúng trông giống nhau, cụ thể là, không kết luận. Những lý do nào bạn đang sử dụng để quyết định thế nào là đẹp và phù hợp?

Điểm công bằng.

Giả định tôi đưa ra ở đây là một mô hình phù hợp tốt sẽ không có mô hình rõ ràng trong phần dư. Bây giờ, tôi không vẽ các phần dư, vì vậy bạn phải thực hiện một chút công việc khi nhìn vào các bức tranh, nhưng bạn sẽ có thể sử dụng trí tưởng tượng của mình.

Trong hình đầu tiên, với đường cong bậc hai phù hợp với dữ liệu, tôi có thể thấy mẫu sau trong phần dư

  • Từ 0,0 đến 0,3 chúng được đặt đều trên và dưới đường cong.
  • Từ 0,3 đến khoảng 0,55 tất cả các điểm dữ liệu nằm trên đường cong.
  • Từ 0,55 đến khoảng 0,85 tất cả các điểm dữ liệu nằm dưới đường cong.
  • Từ 0,85 trở đi, tất cả đều ở trên đường cong một lần nữa.

Tôi muốn coi những hành vi này là thiên vị cục bộ , có những vùng mà đường cong không gần đúng với giá trị trung bình có điều kiện của dữ liệu.

So sánh điều này với sự phù hợp cuối cùng, với spline khối. Tôi không thể chọn bất kỳ khu vực nào bằng mắt mà sự phù hợp không giống như nó chạy chính xác qua trung tâm khối lượng của các điểm dữ liệu. Điều này nói chung (mặc dù không chính xác) những gì tôi muốn nói là phù hợp.


Lưu ý cuối cùng : Lấy tất cả điều này làm minh họa. Trong thực tế, tôi không khuyên bạn nên sử dụng các mở rộng cơ sở đa thức cho bất kỳ mức độ nào cao hơn . Các vấn đề của họ được thảo luận tốt ở nơi khác, nhưng, ví dụ:2

  • Hành vi của họ tại ranh giới dữ liệu của bạn có thể rất hỗn loạn, ngay cả với việc thường xuyên hóa.
  • Họ không phải là người địa phương trong bất kỳ ý nghĩa. Thay đổi dữ liệu của bạn ở một nơi có thể ảnh hưởng đáng kể đến sự phù hợp ở một nơi rất khác.

Tôi thay vào đó, trong một tình huống như bạn mô tả, khuyên bạn nên sử dụng các khối vuông tự nhiên cùng với chính quy, điều này mang lại sự thỏa hiệp tốt nhất giữa tính linh hoạt và sự ổn định. Bạn có thể tự mình nhìn thấy bằng cách lắp một số spline trong ứng dụng.

Spline khối tự nhiên

(*) Tôi tin rằng điều này chỉ hoạt động trong chrome và firefox do tôi sử dụng một số tính năng javascript hiện đại (và nói chung là lười biếng để sửa nó trong safari và tức là). Mã nguồn là ở đây , nếu bạn quan tâm.


3
Cảm ơn, và công cụ trình duyệt của bạn thật tuyệt vời - Tôi yêu những bản demo tương tác nhỏ như thế!
Karnivaurus

@Karnivaurus Cảm ơn, tôi rất vui vì tôi có thể giúp đỡ. Công cụ này rất thú vị để xây dựng, tôi thích viết javascript :)
Matthew Drury

3
+6. Tốt công việc viết công cụ này! Bạn sẽ nhận được tiền thưởng từ tôi một khi chủ đề đủ cũ để đặt tiền thưởng cho nó.
amip nói rằng Phục hồi lại

4
+1 Đây là một câu trả lời thực sự tốt. Một cách để thể hiện sự không ổn định của sự phù hợp đa thức mức độ cao là vẽ biểu đồ hồi quy bậc cao với một điểm dữ liệu được loại bỏ cho mỗi điểm và tương phản với giải pháp RCS.
Sycorax nói Phục hồi lại

1
@MatthewDrury "splines khối bị hạn chế" - xin lỗi về điều đó.
Sycorax nói Phục hồi lại

4

Không, nó không giống nhau. So sánh, ví dụ, một đa thức bậc hai mà không cần chính quy với đa thức bậc bốn với nó. Cái sau có thể tạo ra các hệ số lớn cho các quyền lực thứ ba và thứ tư miễn là điều này dường như làm tăng độ chính xác dự đoán, theo bất kỳ thủ tục nào được sử dụng để chọn kích thước hình phạt cho thủ tục chính quy hóa (có thể là xác thực chéo). Điều này cho thấy một trong những lợi ích của việc chính quy hóa là nó cho phép bạn tự động điều chỉnh độ phức tạp của mô hình để đạt được sự cân bằng giữa quá mức và thiếu cân bằng.


Nhưng nếu bạn thêm chính quy vào đa thức bậc bốn, điều này ngăn nó sử dụng toàn bộ biểu cảm của nó. Vì vậy, với đủ chính quy, tính biểu cảm sẽ giảm xuống đến mức nó có tính biểu cảm như một đa thức bậc hai. Không?
Karnivaurus

1
Có lẽ nếu bạn cố định kích thước hình phạt của mình trước, nhưng ý nghĩa của nó là gì? Kích thước hình phạt nên được lựa chọn dựa trên dữ liệu.
Chuyên gia Kodi

4

Đối với đa thức, ngay cả những thay đổi nhỏ trong hệ số cũng có thể tạo ra sự khác biệt cho số mũ cao hơn.

L2 hóa (bình phương tối thiểu) thường khuyến khích nhiều hệ số nhỏ nhưng không chính xác bằng 0 và do đó các đơn thức bậc cao hơn có thể tạo ra sự khác biệt.


2

Tất cả các câu trả lời đều tuyệt vời và tôi có các mô phỏng tương tự với Matt để cho bạn một ví dụ khác để cho thấy tại sao mô hình phức tạp với chính quy hóa thường tốt hơn mô hình đơn giản .

Tôi đã thực hiện một sự tương tự để có lời giải thích trực quan.

  • Trường hợp 1 bạn chỉ có một học sinh trung học với kiến ​​thức hạn chế (một mô hình đơn giản mà không cần chính quy)
  • Trường hợp 2 bạn có một sinh viên tốt nghiệp nhưng hạn chế anh ấy / cô ấy chỉ sử dụng kiến ​​thức ở trường trung học để giải quyết vấn đề. (mô hình phức tạp với chính quy)

Nếu hai người đang giải quyết cùng một vấn đề, thông thường các sinh viên tốt nghiệp sẽ làm việc giải pháp tốt hơn, bởi vì kinh nghiệm và hiểu biết về kiến ​​thức.

Hình 1 đang hiển thị 4 phụ kiện cho cùng một dữ liệu. 4 phụ kiện là dòng, parabola, mô hình thứ 3 và mô hình thứ 5. Bạn có thể quan sát mô hình thứ 5 có thể có vấn đề quá mức.

nhập mô tả hình ảnh ở đây

Mặt khác, trong thử nghiệm thứ hai, chúng tôi sẽ sử dụng mô hình bậc 5 với mức độ chính quy khác nhau. So sánh cái cuối cùng với mô hình thứ tự thứ hai. (hai mô hình được tô sáng) bạn sẽ thấy mô hình cuối cùng tương tự (gần như có cùng độ phức tạp của mô hình) với parabola, nhưng linh hoạt hơn một chút với dữ liệu.

nhập mô tả hình ảnh ở đây


1
"đại khái có cùng độ phức tạp của mô hình" ... đó là sự so sánh "rõ ràng", có cách nào để đo lường nó không?
Cá bạc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.