Đối với những mô hình nào thì độ lệch của MLE giảm nhanh hơn phương sai?


14

Đặt là ước tính khả năng tối đa của một tham số thực của một số mô hình. Khi số điểm dữ liệu tăng lên, lỗi thường giảm khi O (1 / \ sqrt n) . Sử dụng bất đẳng thức tam giác và tính chất của kỳ vọng, có thể chỉ ra rằng tỷ lệ lỗi này ngụ ý rằng cả "thiên vị" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVert và "độ lệch" \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rVert giảm ở cùng O (1 / \ sqrt {n})Θθ^ θ*θnn θ -θ*θ^θO(1/n )O(1/n)E θ -θ*Eθ^θE θ - θEθ^θ^O(1/n )O(1/n)tỷ lệ. Tất nhiên, các mô hình có thể có độ lệch co lại với tốc độ nhanh hơn. Nhiều mô hình (như hồi quy bình phương nhỏ nhất bình phương) không có sai lệch.

Tôi quan tâm đến các mô hình có độ lệch co lại nhanh hơn , nhưng trong đó lỗi không co lại ở tốc độ nhanh hơn này vì độ lệch vẫn co lại là . Cụ thể, tôi muốn biết các điều kiện đủ để độ lệch của mô hình thu nhỏ lại ở tốc độ .O ( 1 / n )O(1/n)O(1/n )O(1/n)O(1/n)O(1/n)


Có phải ? Hoặc là? ˆθθ=(ˆθθ)2θ^θ=(θ^θ)2
Alecos Papadopoulos

Tôi đã đặc biệt hỏi về định mức L2, vâng. Nhưng tôi cũng quan tâm đến các tiêu chuẩn khác nếu nó làm cho câu hỏi dễ trả lời hơn.
Mike Izbicki

(ˆθθ)2(θ^θ)2 là . Op(1/n)Op(1/n)
Alecos Papadopoulos

Xin lỗi, tôi đọc sai nhận xét của bạn. Đối với định mức L2 theo kích thước , và do đó, hội tụ theo tỷ lệ . Tôi đồng ý rằng nếu chúng ta bình phương nó thì nó sẽ hội tụ thành . ddab=di=1(aibi)2ab=di=1(aibi)2O(1/n)O(1/n)O(1/n)O(1/n)
Mike Izbicki

Bạn đã thấy giấy hồi quy sườn (Hoerl & Kennard 1970) chưa? Tôi tin rằng nó đưa ra các điều kiện về ma trận thiết kế + hình phạt trong đó điều này được dự kiến ​​là đúng.
dcl

Câu trả lời:


5

Nói chung, bạn cần các mô hình trong đó MLE không bình thường về mặt triệu chứng nhưng hội tụ đến một số phân phối khác (và nó làm như vậy với tốc độ nhanh hơn). Điều này thường xảy ra khi tham số theo ước tính nằm ở ranh giới của không gian tham số. Theo trực giác, điều này có nghĩa là MLE sẽ tiếp cận tham số "chỉ từ một phía", do đó, nó "cải thiện tốc độ hội tụ" vì nó không bị "phân tâm" bằng cách "quay lại" xung quanh tham số.

Một ví dụ tiêu chuẩn, là MLE cho trong mẫu iid của đồng phục rv của MLE ở đây là thống kê đơn hàng tối đa,θθU(0,θ)U(0,θ)

ˆθn=u(n)

θ^n=u(n)

Phân phối mẫu hữu hạn của nó là

F θ n = ( θ n ) nθ n ,f θ = n ( θ n ) n - 1θ n

Fθ^n=(θ^n)nθn,fθ^=n(θ^n)n1θn

E ( θ n ) = nn + 1 θB ( θ ) = - 1n + 1 θ

E(θ^n)=nn+1θB(θ^)=1n+1θ

Vì vậy, B ( θ n ) = O ( 1 / n )B(θ^n)=O(1/n) . Nhưng tỷ lệ tăng tương tự cũng sẽ giữ cho phương sai.

Người ta cũng có thể xác minh rằng để có được một bản phân phối hạn chế, chúng ta cần phải nhìn vào các biến n ( θ - θ n ) , (tức là chúng ta cần phải quy mô của n ) kể từn(θθ^n)n

P [ n ( θ - θ n ) z ] = 1 - P [ θ nθ - ( z / n ) ]

P[n(θθ^n)z]=1P[θ^nθ(z/n)]

= 1 - 1θ n(θ+-zn)n=1θnθn(1+z/θn)n

=11θn(θ+zn)n=1θnθn(1+z/θn)n

1ez/θ

1ez/θ

which is the CDF of the Exponential distribution.

I hope this provides some direction.


Điều này đang đến gần, nhưng tôi đặc biệt quan tâm đến các tình huống mà độ lệch co lại nhanh hơn phương sai.
Mike Izbicki

2
@MikeIzbicki Hmm ... sự hội tụ thiên vị phụ thuộc vào thời điểm phân phối đầu tiên và phương sai (căn bậc hai của) cũng là một cường độ "bậc nhất". Tôi không chắc chắn điều đó có thể xảy ra hay không, bởi vì dường như nó sẽ ám chỉ rằng những khoảnh khắc phân phối giới hạn "phát sinh" với tốc độ hội tụ không tương thích với nhau ... Mặc dù vậy tôi sẽ nghĩ về nó.
Alecos Papadopoulos

2

Following comments in my other answer (and looking again at the title of the OP's question!), here is an not very rigorous theoretical exploration of the issue.

We want to determine whether Bias B(ˆθn)=E(ˆθn)θB(θ^n)=E(θ^n)θ may have different convergence rate than the square root of the Variance,

B(ˆθn)=O(1/nδ),Var(ˆθn)=O(1/nγ),γδ???

B(θ^n)=O(1/nδ),Var(θ^n)=O(1/nγ),γδ???

We have

B(ˆθn)=O(1/nδ)limnδE(ˆθn)<Klimn2δ[E(ˆθn)]2<K

B(θ^n)=O(1/nδ)limnδE(θ^n)<Klimn2δ[E(θ^n)]2<K

[E(ˆθn)]2=O(1/n2δ)

[E(θ^n)]2=O(1/n2δ)(1)

while

Var(ˆθn)=O(1/nγ)limnγE(ˆθ2n)[E(ˆθn)]2<M

Var(θ^n)=O(1/nγ)limnγE(θ^2n)[E(θ^n)]2<M

limn2γE(ˆθ2n)n2γ[E(ˆθn)]2<M

limn2γE(θ^2n)n2γ[E(θ^n)]2<M

limn2γE(ˆθ2n)limn2γ[E(ˆθn)]2<M

limn2γE(θ^2n)limn2γ[E(θ^n)]2<M(2)

We see that (2)(2) may hold happen if

A) both components are O(1/n2γ)O(1/n2γ), in which case we can only have γ=δγ=δ.

B) But it may also hold if

limn2γ[E(ˆθn)]20[E(ˆθn)]2=o(1/n2γ)

limn2γ[E(θ^n)]20[E(θ^n)]2=o(1/n2γ)(3)

For (3)(3) to be compatible with (1)(1), we must have

n2γ<n2δδ>γ

n2γ<n2δδ>γ(4)

So it appears that in principle it is possible to have the Bias converging at a faster rate than the square root of the variance. But we cannot have the square root of the variance converging at a faster rate than the Bias.


How would you reconcile this with the existence of unbiased estimators like ordinary least squares? In that case, B(ˆθ)=0, but Var(ˆθ)=O(1/n).
Mike Izbicki

@MikeIzbicki Is the concept of convergence/big-O applicable in this case? Because here B(ˆθ) is not "O()-anything" to begin with.
Alecos Papadopoulos

In this case, Eˆθ=θ, so B(ˆθ)=Eˆθθ=0=O(1)=O(1/n0).
Mike Izbicki

@MikeIzbicki But also B(ˆθ)=O(n) or B(ˆθ)=O(1/n) or any other you care to write down. So which one is the rate of convergence here?
Alecos Papadopoulos

@MikeIzbicki I have corrected my answer to show that it is possible in principle to have the Bias converging faster, although I still think the "zero-bias" example is problematic.
Alecos Papadopoulos
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.