Có một biểu diễn đồ họa của sự đánh đổi sai lệch trong hồi quy tuyến tính không?


18

Tôi đang bị mất điện. Tôi đã được trình bày bức tranh sau đây để giới thiệu sự đánh đổi sai lệch trong bối cảnh hồi quy tuyến tính:

Mô hình đa thức cho dữ liệu, trường hợp đơn giản và phức tạp

Tôi có thể thấy rằng không có mô hình nào trong hai mô hình phù hợp - "đơn giản" không đánh giá cao sự phức tạp của mối quan hệ XY và "phức tạp" chỉ là quá mức, về cơ bản là học dữ liệu đào tạo. Tuy nhiên tôi hoàn toàn không thấy sự thiên vị và phương sai trong hai bức ảnh này. Ai đó có thể cho tôi thấy điều này?

PS: Câu trả lời cho lời giải thích trực quan về sự đánh đổi sai lệch? không thực sự giúp tôi, tôi sẽ rất vui nếu ai đó có thể cung cấp một cách tiếp cận khác dựa trên bức tranh trên.

Câu trả lời:


11

Sự đánh đổi phương sai sai lệch dựa trên sự cố của lỗi bình phương trung bình:

MSE(y^)=E[yy^]2=E[yE[y^]]2+E[y^E[y^]]2

Một cách để xem giao dịch sai lệch thiên vị là những thuộc tính nào của tập dữ liệu được sử dụng trong mô hình phù hợp. Đối với mô hình đơn giản, nếu chúng ta giả sử rằng hồi quy OLS đã được sử dụng để khớp với đường thẳng, thì chỉ có 4 số được sử dụng để khớp với đường thẳng:

  1. Hiệp phương sai mẫu giữa x và y
  2. Phương sai mẫu của x
  3. Giá trị trung bình mẫu của x
  4. Giá trị trung bình mẫu của y

Vì vậy, bất kỳ biểu đồ nào dẫn đến cùng 4 số ở trên sẽ dẫn đến chính xác cùng một dòng được trang bị (10 điểm, 100 điểm, 100000000 điểm). Vì vậy, theo một nghĩa nào đó, nó không nhạy cảm với mẫu cụ thể được quan sát. Điều này có nghĩa là nó sẽ bị "sai lệch" vì nó thực sự bỏ qua một phần dữ liệu. Nếu phần bị bỏ qua đó của dữ liệu là quan trọng, thì các dự đoán sẽ liên tục bị lỗi. Bạn sẽ thấy điều này nếu bạn so sánh dòng được trang bị bằng cách sử dụng tất cả dữ liệu với các dòng được trang bị thu được từ việc xóa một điểm dữ liệu. Họ sẽ có xu hướng khá ổn định.

Bây giờ mô hình thứ hai sử dụng mọi mẩu dữ liệu mà nó có thể nhận được, và phù hợp với dữ liệu càng gần càng tốt. Do đó, vị trí chính xác của mọi điểm dữ liệu có vấn đề và do đó bạn không thể thay đổi dữ liệu huấn luyện xung quanh mà không thay đổi mô hình được trang bị như bạn có thể cho OLS. Do đó, mô hình rất nhạy cảm với tập huấn luyện cụ thể mà bạn có. Mô hình được trang bị sẽ rất khác nhau nếu bạn thực hiện cùng một biểu đồ điểm dữ liệu thả xuống.


θ^y^θx,y

y^θ^

θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)

@loganecolss - đây không phải là một nghịch lý vì khái niệm thiên vị chỉ tồn tại "cục bộ" - nghĩa là, đối với một mô hình thống kê nhất định. "Nghịch lý" tồn tại đối với một người: 1) biết "mô hình thực sự" và 2) quyết định không sử dụng nó. Người đó là một thằng ngốc trong cuốn sách của tôi. Nếu bạn không biết "mô hình thực sự" thì sẽ không có vấn đề gì - trừ khi bạn tìm thấy một mô hình tốt và quyết định không sử dụng nó ...
xác suất

1
f(x,z1,z2,Giáo dục,zK)zTôiK
xác suất

5

Để tóm tắt với những gì tôi nghĩ tôi biết theo cách phi toán học:

  • sai lệch - dự đoán của bạn sẽ không chính xác khi bạn sử dụng mô hình đơn giản và điều đó sẽ xảy ra với bất kỳ tập dữ liệu nào bạn sử dụng mô hình trên. Dự đoán của bạn là sai
  • phương sai - nếu bạn sử dụng mô hình phức tạp, bạn sẽ có được dự đoán rất khác nhau dựa trên bất kỳ tập dữ liệu nào bạn đang sử dụng

Trang này có một lời giải thích khá tốt với các sơ đồ tương tự như những gì bạn đã đăng. (Mặc dù tôi đã bỏ qua phần trên cùng, chỉ đọc phần có sơ đồ) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htmlm (mouseover hiển thị một mẫu khác trong trường hợp bạn không nhận thấy!)


Đó là một trang thú vị và minh họa tốt, nhưng tôi thấy chúng khó hiểu hơn sau đó hữu ích vì (a) "thiên vị" và "phương sai" được thảo luận trong bối cảnh hồi quy không có vẻ là sai lệch và sai lệch như được xác định ở đầu. trang và (b) không rõ ràng rằng các tuyên bố được đưa ra (về cách thay đổi độ lệch và phương sai với số lượng tham số) là chính xác.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.