Trực giác toán học của phương trình Bias-Variance


12

Gần đây tôi đã hỏi một câu hỏi tìm cách giải thích / trực giác toán học đằng sau phương trình cơ bản liên quan đến trung bình và phương sai mẫu: , hình học hoặc cách khác.E[X2]=Var(X)+(E[X])2

Nhưng bây giờ tôi tò mò về phương trình đánh đổi sai lệch tương tự bề ngoài.

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(công thức từ Wikipedia )

Đối với tôi có một sự tương đồng bề ngoài với phương trình đánh đổi sai lệch cho hồi quy: ba thuật ngữ với bình phương và hai thuật ngữ thêm vào khác. Rất Pythagore tìm kiếm. Có một mối quan hệ vectơ tương tự bao gồm tính trực giao cho tất cả các mục này? Hoặc có một số giải thích toán học liên quan khác áp dụng?

Tôi đang tìm kiếm một sự tương tự toán học với một số đối tượng toán học khác có thể làm sáng tỏ. Tôi không tìm kiếm sự tương tự chính xác - chính xác được đề cập ở đây. Nhưng nếu có những sự tương tự phi kỹ thuật mà mọi người có thể đưa ra giữa sự đánh đổi sai lệch thiên vị và mối quan hệ phương sai trung bình cơ bản hơn nhiều, điều đó cũng sẽ rất tuyệt.

Câu trả lời:


12

Sự tương đồng là nhiều hơn bề ngoài.

"Sự đánh đổi sai lệch" có thể được hiểu là Định lý Pythagore áp dụng cho hai vectơ Euclide vuông góc: độ dài của một là độ lệch chuẩn và độ dài của cái kia là độ lệch. Độ dài của cạnh huyền là lỗi bình phương gốc.

Một mối quan hệ cơ bản

Là một điểm khởi hành, hãy xem xét tính toán tiết lộ này, hợp lệ cho bất kỳ biến ngẫu nhiên với giây thứ hai hữu hạn và bất kỳ số thực . Vì khoảnh khắc thứ hai là hữu hạn, có nghĩa là hữu hạn mà , từ đómột X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

Chương trình này như thế nào độ lệch bình phương trung bình giữa và bất kỳ "cơ sở" giá trị thay đổi theo : nó là một hàm bậc hai của với tối thiểu tại , nơi độ lệch bình phương trung bình là phương sai của .a a a μ XXaaaμX

Kết nối với các ước tính và thiên vị

Bất kỳ công cụ ước tính là một biến ngẫu nhiên bởi vì (theo định nghĩa) nó là một hàm (có thể đo lường) của các biến ngẫu nhiên. Để cho nó đóng vai trò của ở trước và để cho ước tính (điều được ước tính) là , chúng ta có X θ θθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Bây giờ chúng ta hãy quay trở lại khi chúng ta đã thấy cách phát biểu về sai lệch + phương sai cho một công cụ ước tính đúng nghĩa là một trường hợp của . Câu hỏi tìm kiếm "sự tương tự toán học với các đối tượng toán học." Chúng ta có thể làm nhiều hơn thế bằng cách chỉ ra rằng các biến ngẫu nhiên có thể tích hợp vuông có thể tự nhiên được tạo thành một không gian Euclide.( 1 )(1)(1)

Nền toán học

Theo một nghĩa rất chung, một biến ngẫu nhiên là một hàm có giá trị thực (có thể đo lường) trên một không gian xác suất . Tập hợp các hàm như vậy có thể tích hợp vuông, thường được viết (với cấu trúc xác suất đã cho), gần như là một không gian Hilbert. Để làm cho nó thành một, chúng ta phải conflate bất kỳ hai biến ngẫu nhiên và mà không thực sự khác nhau về điều kiện hội nhập: đó là, chúng ta nói và là tương đương bất cứ khi nàoL 2 ( Ω ) X Y X Y(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

Nó đơn giản để kiểm tra rằng đây là một quan hệ tương đương đúng: quan trọng nhất, khi tương đương với và tương đương với , sau đó nhất thiết sẽ tương đương với . Do đó, chúng tôi có thể phân vùng tất cả các biến ngẫu nhiên có thể tích hợp vuông thành các lớp tương đương. Các lớp này tạo thành tập . Hơn nữa, kế thừa cấu trúc không gian vectơ của được xác định bằng cách thêm các giá trị theo chiều dọc và phép nhân vô hướng theo chiều. Trên không gian vectơ này, hàmY Y Z X Z L 2 ( Ω ) L 2 L 2XYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

là một chỉ tiêu , thường được viết . Định mức này biến thành không gian Hilbert. Hãy nghĩ về một không gian Hilbert là một "không gian Euclide vô hạn". Bất kỳ không gian con chiều hữu hạn thừa hưởng định mức từ và , với định mức này, là một không gian Euclide: chúng ta có thể thực hiện hình học Euclide trong đó.L 2 ( Ω ) H V H H V||X||2L2(Ω)HVHHV

Cuối cùng, chúng ta cần một thực tế đặc biệt đối với các không gian xác suất (chứ không phải là không gian đo chung): bởi vì là một xác suất, nó bị giới hạn (bởi ), từ đó các hàm không đổi (đối với bất kỳ số thực cố định ) là các biến ngẫu nhiên có thể tích hợp vuông với các chỉ tiêu hữu hạn. 1 ω a aP1ωaa

Một giải thích hình học

Xem xét bất kỳ vuông khả tích ngẫu nhiên biến , coi như là một đại diện của lớp tương đương của nó trong L 2 ( Ω ) . Nó có một bình μ = E ( X ) mà (như người ta có thể kiểm tra) chỉ phụ thuộc vào các lớp tương đương của X . Hãy 1 : w 1 là lớp của biến ngẫu nhiên liên tục.XL2(Ω)μ=E(X)X1:ω1

X1VL2(Ω)2||X||22=E(X2)X||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

Nó thực sự chính xác là Định lý Pythagore, về cơ bản giống như hình thức được biết đến 2500 năm trước. Đối tượng là cạnh huyền của một tam giác vuông có chân và .

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

Nếu bạn muốn các phép tương tự toán học, sau đó, bạn có thể sử dụng bất cứ điều gì có thể được biểu thị dưới dạng cạnh huyền của một tam giác vuông trong không gian Euclide. Đường huyền sẽ biểu thị "lỗi" và chân sẽ biểu thị độ lệch và độ lệch so với giá trị trung bình.


Thông minh. Vì vậy, lý do gần như giống với câu hỏi trước đây của tôi re . Vì vậy, có một sự tương tự giữa những người, phải không? Có vẻ như trực giác rằng thiên vị là tương tự như có nghĩa. Và khái quát hóa có nghĩa là thời điểm đầu tiên liên quan đến 0, nhưng sai lệch liên quan đến giá trị thực của một tham số. Nghe có đúng không? Var=EX2(EX)2
Mitch

Có - với điều kiện (là một cái nhìn sâu sắc được thêm vào bởi cách giải thích hình học) rằng cách thức đúng đắn để đo lường những điều này là về mặt hình vuông của chúng.
whuber

Vì vậy, whuber, tôi có một câu hỏi liên quan. Đối với bất kỳ máy học nào, tôi có hai khái niệm này "nếu chúng ta tăng kích thước mẫu, phương sai của một công cụ ước lượng không thiên vị giả định sẽ bằng không" và "nếu chúng ta tăng độ phức tạp của mô hình, do đó, chúng ta sẽ có độ lệch thấp và phương sai cao" . Do đó, tôi có thể nói rằng sức mạnh tính toán nhiều hơn cho phép sự phức tạp hơn sẽ làm giảm sự thiên vị, nhưng làm tăng phương sai. Tuy nhiên, theo tiệm cận, sự gia tăng phương sai này sẽ được bù đắp.
ARAT

@Mustafa Bạn thực hiện một số giả định mạnh mẽ. Đầu tiên là một mẫu là ngẫu nhiên và (ít nhất là xấp xỉ) độc lập - đó thường không phải là trường hợp trong các ứng dụng ML. Các kết luận về việc tăng độ phức tạp của mô hình thường không đúng, một phần vì "độ phức tạp tăng" ngụ ý rằng bạn đang thay đổi mô hình và điều đó đặt ra câu hỏi về ý nghĩa của ước tính của bạn cũng như ước tính của người ước tính đó có thể liên quan đến ước tính của nó như thế nào . Không nhất thiết phải tuân theo sự phức tạp của mô hình ngày càng tăng có bất kỳ ảnh hưởng có thể dự đoán chung nào về sai lệch hoặc phương sai.
whuber

4

Đây là một cách để suy nghĩ trực quan về độ chính xác và sự đánh đổi sai lệch phương sai. Giả sử bạn đang nhìn vào một mục tiêu và bạn thực hiện nhiều cú đánh nằm rải rác gần trung tâm của mục tiêu theo cách không có sự thiên vị. Sau đó, độ chính xác chỉ được xác định bởi phương sai và khi phương sai nhỏ, người bắn chính xác.

Bây giờ chúng ta hãy xem xét một trường hợp có độ chính xác lớn nhưng độ lệch lớn. Trong trường hợp này, các bức ảnh nằm rải rác xung quanh một điểm cách xa trung tâm. Một cái gì đó đang làm rối tung mục tiêu nhưng xung quanh điểm ngắm này, mọi phát bắn đều gần với điểm ngắm mới đó. Người bắn là chính xác nhưng rất không chính xác vì sự thiên vị.

Có những tình huống khác trong đó các bức ảnh là chính xác vì độ lệch nhỏ và độ chính xác cao. Những gì chúng ta muốn là không có sai lệch và phương sai nhỏ hoặc phương sai nhỏ với sai lệch nhỏ. Trong một số vấn đề thống kê, bạn không thể có cả hai. Vì vậy, MSE trở thành thước đo độ chính xác mà bạn muốn sử dụng để loại bỏ sự đánh đổi sai lệch phương sai và giảm thiểu MSE là mục tiêu.


Mô tả trực quan tuyệt vời tái sai lệch và độ chính xác tương tự chính xác. Tôi cũng đang tìm kiếm một giải thích toán học như Định lý Pythagore.
Mitch

1
Tôi đã không tập trung vào điều đó bởi vì nó được đề cập trên một bài đăng khác thảo luận về việc giải thích hình học. Tôi sẽ tìm liên kết cho bạn.
Michael R. Chernick

@Mitch Việc tìm kiếm "đánh đổi sai lệch" mang lại 134 lượt truy cập trên trang CV. Tôi chưa tìm thấy Định lý Pythagore nhưng cái này thực sự tốt và có một bức tranh về các mục tiêu tôi đã thảo luận trên bài đăng này. "Giải thích trực quan về sự đánh đổi sai lệch".
Michael R. Chernick

X2E[X])2

@Mitch Tôi không nhận ra rằng bạn đã đăng câu hỏi mà tôi đang tìm kiếm.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.