Phân rã phương sai: thuật ngữ cho lỗi dự báo bình phương dự kiến ​​ít lỗi không thể sửa chữa


9

Hastie và cộng sự. "Các yếu tố của học thống kê" (2009) xem xét quá trình tạo dữ liệu với và .E ( ε ) = 0 Var ( ε ) = σ 2 ε

Y=f(X)+ε
E(ε)=0Var(ε)=σε2

Chúng trình bày phân tách phương sai sai lệch sau của lỗi dự báo bình phương dự kiến ​​tại điểm (trang 223, công thức 7.9): Trong tôi công việc riêng tôi không chỉ định mà thay vào đó là một dự báo tùy ý (nếu điều này có liên quan). Câu hỏi: Tôi đang tìm một thuật ngữ cho hoặc chính xác hơn là Err ( x 0 )x0F () y Bias2+Phương saiErr(x0)-lỗi Bất khả quy.

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
f^()y^
Bias2+Variance
Err(x0)Irreducible error.

3
Câu hỏi ở đây là gì?
Michael R. Chernick

1
@sntx, cảm ơn vì ý tưởng. Nhưng bằng cách nào đó nó không đúng. Có thể lỗi mô hình hóa (nghĩa là lỗi do mô hình sai chính tả và ước lượng không chính xác của mô hình), nhưng sau đó không có nghĩa gì nếu không có mô hình tạo dự báo (ví dụ: dự báo của chuyên gia).
Richard Hardy

1
@DeltaIV, điều đó khá tốt. Tuy nhiên, tôi nghĩ rằng thuật ngữ này được tính phí; có vẻ như dự báo là kém và chúng ta có thể làm tốt hơn. Nhưng giả sử chúng tôi đã làm hết sức mình cho dữ liệu đã cho. Vì vậy, chúng tôi đã chọn mô hình chính xác (không có "độ lệch mô hình") nhưng mẫu chỉ quá nhỏ để ước tính hoàn hảo các hệ số. Do đó, phương sai ước lượng ("phương sai mô hình") thực sự không thể giảm được đối với cỡ mẫu đã cho - trong khi thuật ngữ "lỗi có thể giảm" cho thấy đây không phải là trường hợp. Không phải tôi chắc chắn rằng chúng tôi có thể đưa ra một thuật ngữ tốt hơn, tôi vẫn muốn phấn đấu cho điều đó.
Richard Hardy

1
@DeltaIV, OK, bây giờ tôi đã có trực giác theo nghĩa nó có thể giảm được. Tuy nhiên, thuật ngữ này có thể gây hiểu nhầm nếu được sử dụng mà không cần giải thích thêm (giống như bạn phải giải thích cho tôi). Đề xuất sau của bạn là chính xác, điều này thực sự tốt đẹp, nhưng như bạn đã nói, nó khá phức tạp.
Richard Hardy

1
@DeltaIV, tôi không có ý định như vậy. Điều này không có gì là cá nhân; lập luận của tôi (hy vọng thuyết phục) ở trên trong các ý kiến. Nhưng cảm ơn vì đã thảo luận với tôi, nó giúp.
Richard Hardy

Câu trả lời:


4

Tôi đề nghị giảm lỗi . Đây cũng là thuật ngữ được áp dụng trong đoạn 2.1.1 của Gareth, Witten, Hastie & Tibshirani, Giới thiệu về Học thống kê , một cuốn sách về cơ bản là đơn giản hóa ESL + một số phòng thí nghiệm mã R rất tuyệt vời (ngoại trừ thực tế là họ sử dụng attach, nhưng, hey, không ai hoàn hảo cả). Tôi sẽ liệt kê dưới đây những lý do ưu và nhược điểm của thuật ngữ này.


Trước hết, chúng ta phải nhớ rằng chúng tôi không chỉ giả có nghĩa là 0, mà còn để được độc lập của X (xem đoạn 2.6.1, công thức 2.29 của ESL, 2 nd edition, 12 ngày in ấn). Sau đó, tất nhiên ϵ không thể ước tính được từ X , bất kể lớp giả thuyết H (họ mô hình) nào chúng ta chọn, và mẫu chúng ta sử dụng lớn đến mức nào để tìm hiểu giả thuyết của chúng ta (ước tính mô hình của chúng ta). Điều này giải thích tại sao σ 2 ε được gọi là lỗi không thể rút gọn .ϵXϵXHσϵ2

Bằng cách tương tự, có vẻ như tự nhiên để xác định phần còn lại của các lỗi, , các lỗi khử . Bây giờ, thuật ngữ này nghe có vẻ hơi khó hiểu: như một vấn đề thực tế, theo giả định chúng tôi đưa ra cho quá trình tạo dữ liệu, chúng tôi có thể chứng minh rằngErr(x0)σϵ2

f(x)=E[Y|X=x]

E[Y|X=x]HE[Y|X=x]Hf^(x) trong gia đình người mẫu của chúng tôi.

HE[Y|X=x]σϵ2HϵX


Nếu tiếng ồn là lỗi không thể sửa chữa, nó không phải là không thể sửa chữa. Bạn cần phải thúc đẩy điều này bằng cách nào đó, tôi không thể làm điều đó cho chính mình.
Carl

Trong 2.1.1, ví dụ là "xét nghiệm một số loại thuốc trong máu." Ví dụ đầu tiên tôi đưa ra dưới đây chính xác là như vậy. Trong xét nghiệm đó, cái gọi là lỗi không thể sửa chữa của phép đo là không có gì thuộc loại này. Nó bao gồm việc đếm tiếng ồn, thường được giảm bằng cách đếm 10000 sự kiện trở lên, lỗi đường ống, được phân phối gần như theo cấp số nhân và các lỗi kỹ thuật khác. Để tiếp tục giảm các lỗi "không thể sửa chữa" này, tôi khuyên bạn nên sử dụng trung bình của ba ống đếm cho mỗi mẫu thời gian. Thuật ngữ không thể sửa chữa là biệt ngữ xấu, hãy thử lại.
Carl

1
@Delta, cảm ơn bạn đã trả lời. Một lỗi "lỗi có thể giảm" có thể không thuyết phục lắm, nhưng với bối cảnh và cuộc thảo luận thì nó có vẻ khá tốt!
Richard Hardy

nn

@DeltaV Tôi tin rằng khả năng giảm là một giả định đáng ngờ, xem bên dưới.
Carl

0

1R2ynn

Tại sao tôi không thích thuật ngữ "giảm thiểu"? Nó đánh cắp một tautology tự tham chiếu như trong Tiên đề của khả năng giảm . Tôi đồng ý với Russell 1919 rằng "Tôi không thấy bất kỳ lý do nào để tin rằng tiên đề của tính khử là cần thiết về mặt logic, điều đó có nghĩa là gì khi nói rằng nó đúng trong tất cả các thế giới có thể. Việc thừa nhận tiên đề này vào một hệ thống do đó logic là một khiếm khuyết ... một giả định đáng ngờ. "

n=36

nhập mô tả hình ảnh ở đây

Điều đáng chú ý là khi một mẫu rơi mẫu đầu tiên sau năm phút, vật lý sẽ cải thiện khi nó tiếp tục giảm xuống khi mẫu tiếp tục giảm mẫu sớm xuống còn 60 phút. Điều này cho thấy rằng mặc dù GV cuối cùng tạo thành một mô hình tốt về nồng độ thuốc trong huyết tương, một số thứ khác đang diễn ra trong thời gian đầu.

1%

nhập mô tả hình ảnh ở đây

y


Thật vậy, đây là những gì phân hủy ở trên là về. Nhưng câu trả lời của bạn sẽ phục vụ tốt hơn như là một nhận xét vì nó không giải quyết câu hỏi thực tế. Hay không?
Richard Hardy

Bias2+Variance

Một lần nữa, bạn đang trả lời một câu hỏi khác. Một câu trả lời đúng cho một câu hỏi sai không may là một câu trả lời sai (một lưu ý cho bản thân: thật trùng hợp, tôi đã giải thích điều này cho các sinh viên đại học của tôi ngày hôm qua). Tôi không hỏi biểu thức đó có ý nghĩa như thế nào (nó có ý nghĩa đối với người đã đọc sách giáo khoa ESL và / hoặc làm việc trong học máy ứng dụng), tôi đang yêu cầu một thuật ngữ thích hợp cho nó. Câu hỏi là tích cực, không quy phạm. Và nó khá đơn giản và rất cụ thể.
Richard Hardy

@RichardHardy Không có vật lý, câu hỏi rất khó để tôi hiểu. Thay đổi câu trả lời của tôi, xem sự đăng ký sai ở trên.
Carl

1
Bạn có thể làm điều đó để ước tính quá trình, vâng, và đó là phần lỗi có thể giảm. Nhưng khi bạn dự báo một sự kiện cụ thể bao gồm lật đồng xu, không có cách nào bạn có thể giảm lỗi liên quan đến việc dự đoán sai kết quả của việc lật đồng xu. Đây là những gì lỗi không thể sửa chữa là về. Thú vị: trong một thế giới hoàn toàn xác định sẽ không có lỗi không thể sửa chữa theo định nghĩa, vì vậy nếu quan điểm của bạn về thế giới này hoàn toàn mang tính quyết định, thì tôi có thể hiểu ý của bạn. Tuy nhiên, thế giới là ngẫu nhiên trong "Các yếu tố của học thống kê" và trong thống kê nói chung.
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.