15

Tôi đang cố gắng tìm hiểu sự đánh đổi sai lệch, mối quan hệ giữa sai lệch của công cụ ước tính và sai lệch của mô hình và mối quan hệ giữa phương sai của công cụ ước tính và phương sai của mô hình.

Tôi đi đến những kết luận sau:

Chúng ta có xu hướng quá phù hợp với dữ liệu khi chúng ta bỏ qua sai lệch của công cụ ước tính, đó là khi chúng ta chỉ nhằm mục đích giảm thiểu sai lệch của mô hình mà bỏ qua phương sai của mô hình (nói cách khác chúng ta chỉ nhằm mục đích giảm thiểu phương sai của công cụ ước tính mà không xem xét sai lệch của công cụ ước tính quá)
Ngược lại, chúng ta có xu hướng đánh giá thấp dữ liệu khi chúng ta bỏ qua phương sai của công cụ ước tính, đó là khi chúng ta chỉ nhằm mục đích giảm thiểu phương sai của mô hình mà bỏ qua sự thiên vị của mô hình (nói cách khác chúng ta chỉ nhằm mục đích giảm thiểu sai lệch của công cụ ước tính mà không xem xét phương sai của công cụ ước tính quá).

Kết luận của tôi có đúng không?

— John M
nguồn

John, tôi nghĩ rằng bạn sẽ thích đọc bài viết này của Tal Yarkoni và Jacob Westfall - nó cung cấp một cách giải thích trực quan về sự đánh đổi sai lệch thiên vị: jakewestfall.org/publications/ .

— Isabella Ghement

21

Vâng, loại. Như đã nêu, bạn quy định ý định cho nhà khoa học để giảm thiểu sai lệch hoặc phương sai. Trong thực tế, bạn không thể quan sát rõ ràng sự sai lệch hoặc phương sai của mô hình của bạn (nếu bạn có thể, thì bạn sẽ biết tín hiệu thực sự, trong trường hợp đó bạn sẽ không cần một mô hình). Nói chung, bạn chỉ có thể quan sát tỷ lệ lỗi của mô hình của mình trên một tập dữ liệu cụ thể và bạn tìm cách ước tính tỷ lệ lỗi mẫu bằng các kỹ thuật sáng tạo khác nhau.

Bây giờ bạn làm biết rằng, về mặt lý thuyết ít nhất, tỷ lệ lỗi này có thể được phân tách ra thành xu hướng và phương sai thuật ngữ, nhưng bạn không thể trực tiếp quan sát sự cân bằng này trong bất kỳ tình huống cụ thể bê tông. Vì vậy, tôi sẽ khôi phục lại các quan sát của bạn như:

Một mô hình không phù hợp với dữ liệu khi thuật ngữ sai lệch đóng góp phần lớn trong số lỗi mẫu.
Một mô hình phù hợp với dữ liệu khi thuật ngữ phương sai đóng góp phần lớn lỗi ngoài mẫu.

Nói chung, không có cách nào thực sự để biết chắc chắn, vì bạn không bao giờ có thể thực sự quan sát xu hướng mô hình. Tuy nhiên, có nhiều kiểu hành vi khác nhau được biểu thị trong tình huống này hay tình huống khác:

Các mô hình Overfit có xu hướng có hiệu suất phù hợp tồi tệ hơn nhiều trên một tập dữ liệu thử nghiệm so với tập dữ liệu huấn luyện.
Các mô hình Underfit có xu hướng có hiệu suất tương tự về hiệu suất phù hợp trong thử nghiệm so với tập dữ liệu huấn luyện.

Đây là các mẫu được biểu hiện trong các biểu đồ tỷ lệ lỗi nổi tiếng theo độ phức tạp của mô hình, mẫu này là từ Các yếu tố của học thống kê:

mô hình tính linh hoạt

Thông thường, các lô này được phủ lên một đường cong thiên vị và phương sai. Tôi lấy cái này từ giải trình tốt đẹp này :

nhập mô tả hình ảnh ở đây

Nhưng, điều rất quan trọng là nhận ra rằng bạn không bao giờ thực sự nhìn thấy những đường cong bổ sung này trong bất kỳ tình huống thực tế nào.

— Matthew Drury
nguồn

4

Minh họa Bias - Variance Tradeoff bằng ví dụ về đồ chơi

Như @Matthew Drury chỉ ra, trong các tình huống thực tế, bạn không được xem biểu đồ cuối cùng, nhưng ví dụ đồ chơi sau đây có thể cung cấp giải thích trực quan và trực giác cho những người thấy nó hữu ích.

Bộ dữ liệu và giả định

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$
$Y = f(x) + \epsilon$

$x$ $Y$ $Var(Y) = Var(\epsilon) = \frac{1}{12}$

$\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$

Lắp các mô hình đa thức khác nhau

Theo trực giác, bạn sẽ mong đợi một đường cong thẳng thực hiện kém vì bộ dữ liệu rõ ràng là không tuyến tính. Tương tự, phù hợp với một đa thức bậc rất cao có thể là quá mức. Trực giác này được phản ánh trong biểu đồ bên dưới hiển thị các mô hình khác nhau và Lỗi bình phương trung bình tương ứng của chúng cho dữ liệu thử nghiệm và huấn luyện.

Biểu đồ trên hoạt động cho một phân tách thử nghiệm / đào tạo duy nhất nhưng làm thế nào để chúng ta biết liệu nó có khái quát không?

Ước tính chuyến tàu dự kiến và kiểm tra MSE

Ở đây chúng tôi có nhiều tùy chọn, nhưng một cách tiếp cận là phân chia dữ liệu ngẫu nhiên giữa tàu / kiểm tra - phù hợp với mô hình trên phần tách đã cho và lặp lại thí nghiệm này nhiều lần. MSE kết quả có thể được vẽ và trung bình là ước tính của lỗi dự kiến.

Thật thú vị khi thấy rằng MSE thử nghiệm dao động dữ dội cho các phân chia dữ liệu / thử nghiệm khác nhau của dữ liệu. Nhưng lấy trung bình trên một số lượng thí nghiệm đủ lớn giúp chúng tôi tự tin hơn.

$Y$

Xu hướng - Phân tích phương sai

Như đã giải thích ở đây , MSE có thể được chia thành 3 thành phần chính:

E [(Y - \hat{f})^{2}] = = σ_{ε}^{2} + B Tôi một S^{2} [\hat{f}] + V một r [\hat{f}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

E [(Y - \hat{f})^{2}] = = σ_{ε}^{2} + {[f - E [\hat{f}]]}^{2} + E {[\hat{f} - E [\hat{f}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

Trường hợp trong trường hợp đồ chơi của chúng tôi:

$f$ được biết đến từ bộ dữ liệu ban đầu
$\sigma^2_\epsilon$ được biết đến từ sự phân phối đồng đều của $\epsilon$
$E[\hat f]$ có thể được tính như trên
$\hat f$ tương ứng với một đường màu sáng
$E\left[ \hat f - E[ \hat f] \right]^2$ có thể được ước tính bằng cách lấy trung bình

Đưa ra mối quan hệ sau đây

Lưu ý: biểu đồ trên sử dụng dữ liệu huấn luyện để phù hợp với mô hình và sau đó tính toán MSE trên tàu + kiểm tra .

— Xavier Bourret Sicotte
nguồn

Câu hỏi về sự đánh đổi sai lệch

Minh họa Bias - Variance Tradeoff bằng ví dụ về đồ chơi

Bộ dữ liệu và giả định

Lắp các mô hình đa thức khác nhau

Ước tính chuyến tàu dự kiến ​​và kiểm tra MSE

Xu hướng - Phân tích phương sai

Ước tính chuyến tàu dự kiến và kiểm tra MSE