Nếu hạt nhân Epanechnikov về mặt lý thuyết là tối ưu khi thực hiện Ước tính mật độ hạt nhân, tại sao nó không được sử dụng phổ biến hơn?


17

Tôi đã đọc (ví dụ, ở đây ) rằng hạt nhân Epanechnikov là tối ưu, ít nhất là theo nghĩa lý thuyết, khi thực hiện ước tính mật độ hạt nhân. Nếu điều này là đúng, thì tại sao Gaussian xuất hiện thường xuyên như hạt nhân mặc định, hoặc trong nhiều trường hợp là hạt nhân duy nhất, trong các thư viện ước tính mật độ?


2
Hai câu hỏi được đặt ra ở đây: tại sao không được sử dụng phổ biến hơn? Tại sao Gaussian thường là kernel / chỉ mặc định? Nghe có vẻ tầm thường, nhưng cái tên Epanechnikov có vẻ khó đánh vần và phát âm chính xác cho những người không thông thạo ngôn ngữ đó. (Tôi thậm chí không chắc E. là người Nga; Tôi đã không tìm thấy bất kỳ chi tiết tiểu sử nào.) dễ bán hơn Epanechnikov là mặc định trong Stata's kdensity.
Nick Cox

3
Tôi sẽ nói thêm rằng sự tối ưu về mặt lý thuyết này có ít ảnh hưởng trong thực tế nếu có.
Tây An

2
Đó là một cái tên quen thuộc. Nếu sử dụng kernel không có hỗ trợ hữu hạn, bạn nên sử dụng kernel. Theo như kinh nghiệm của tôi, nó không có ý nghĩa, vì vậy sự lựa chọn xuất hiện xã hội, không mang tính kỹ thuật.
Nick Cox

2
@NickCox, vâng, E là một anh chàng người Nga, nó không phải là viết tắt :) Anh ấy là một người khó hiểu, đây là tất cả những gì bạn có thể tìm thấy về anh ấy. Tôi cũng nhớ một cuốn sách rất hữu ích, một người có tên ông đã viết trên máy tính lập trình, vâng, đó là một điều lớn vào thời điểm đó
Aksakal 16/11/18

1
@amoeba Ông làm việc tại Институт радиотехники Việt ở электроники Российской Академии Наук им. Котельникова, tôi cược rằng anh ấy đã nghiên cứu phân loại, tên đầy đủ là Епанечников Виктор Александрович
Aksakal

Câu trả lời:


6

Lý do tại sao hạt nhân Epanechnikov không được sử dụng phổ biến vì sự tối ưu về mặt lý thuyết của nó rất có thể là vì hạt nhân Epanechnikov không thực sự tối ưu về mặt lý thuyết . Tsybakov chỉ trích một cách rõ ràng lập luận rằng hạt nhân Epanechnikov là "tối ưu về mặt lý thuyết" trong trang 16-19 của Giới thiệu về Ước lượng không đối xứng (phần 1.2.4).

Cố gắng tóm tắt, theo một số giả định về hạt nhân K và mật độ cố định p người ta cho rằng lỗi bình phương tích hợp trung bình là, có dạng

(1)1nhK2(u)du+h44SK2(p(x))2dx.

Những lời chỉ trích chính của Tsybakov dường như giảm thiểu đối với các hạt nhân không âm, vì thường có thể có được các công cụ ước tính hoạt động tốt hơn, thậm chí là không âm, mà không giới hạn các hạt nhân không âm.

Bước đầu tiên của đối số cho hạt nhân Epanechnikov bắt đầu bằng cách giảm thiểu (1) trên h và tất cả các hạt nhân không âm (chứ không phải tất cả các hạt nhân của một lớp rộng hơn) để có được băng thông "tối ưu" cho K

hMISE(K)=(K2nSK2(p)2)1/5

và hạt nhân "tối ưu" (Epanechnikov)

K(u)=34(1u2)+

lỗi trung bình tích hợp có nghĩa là:

hMISE(K)=(15n(p)2)1/5.

pp

Một đề xuất được đưa ra bởi Tsybakov ngụ ý rằng MISE tiệm cận cho nhà tiên tri Epanechnikov là:

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

SK=0ε>0

lim supnn4/5Ep(p^n(x)p(x))2dxε.

p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

ε p

p0

ppmật độ. Ông cũng chỉ ra rằng đối số vẫn hoạt động khi sử dụng MSE thay vì MISE.

EDIT: Xem thêm Hệ quả 1.1. trên trang 25, trong đó hạt nhân Epanechnikov được hiển thị là không thể chấp nhận được dựa trên một tiêu chí khác. Tsybakov thực sự có vẻ không thích hạt nhân Epanechnikov.


4
+1 cho một lần đọc thú vị, nhưng điều này không trả lời tại sao hạt nhân Gaussian được sử dụng thường xuyên hơn hạt nhân Epanechnikov: cả hai đều không âm.
amip nói Phục hồi lại

@amoeba Đó là sự thật. Ít nhất điều này trả lời câu hỏi trong tiêu đề, mà chỉ nói về hạt nhân Epanechnikov. (Tức là nó giải quyết tiền đề cho câu hỏi và cho thấy đó là sai.)
Chill2Macht

3
. , ước tính mật độ nói chung sẽ không phải là mật độ hợp lệ (vì bạn đang cắt giảm khối lượng và nó không còn tích hợp với 1). Nếu bạn thực sự chỉ quan tâm đến MSE, điều đó không thành vấn đề, nhưng đôi khi đây sẽ là một vấn đề quan trọng.
Dougal

2

Hạt nhân Gaussian được sử dụng ví dụ trong ước tính mật độ thông qua các dẫn xuất:

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

Điều này là do hạt nhân Epanechnikov có 3 đạo hàm trước nó bằng 0, không giống như Gaussian có vô số dẫn xuất (khác không). Xem phần 2.10 trong liên kết của bạn để biết thêm ví dụ.


2
Đạo hàm đầu tiên của Epanechnikov (lưu ý nhân thứ n , nhân tiện) không liên tục trong đó hàm vượt qua giới hạn của chính hạt nhân; đó có thể là một vấn đề
Glen_b -Reinstate Monica

i

1
@AlexR. Trong khi những gì bạn nói là đúng, tôi không hiểu tại sao nó giải thích tại sao Gaussian lại phổ biến trong ước lượng mật độ thông thường (trái ngược với ước tính đạo hàm của mật độ). Và ngay cả khi ước tính các dẫn xuất, phần 2.10 cho thấy Gaussian không bao giờ là hạt nhân ưa thích.
John Rauser

@JohnRauser: Hãy nhớ rằng bạn cần sử dụng hạt nhân Epanechnikov bậc cao hơn để tối ưu. Thông thường mọi người sử dụng Gaussian vì nó dễ làm việc hơn và có các thuộc tính đẹp hơn.
Alex R.

1
@AlexR Tôi sẽ ngụy biện cho "[u] mọi người thường sử dụng Gaussian"; Bạn có dữ liệu hệ thống nào về tần suất sử dụng không hay đây chỉ là một ấn tượng dựa trên công việc bạn thấy? Tôi thấy biweights thường xuyên, nhưng tôi sẽ không yêu cầu nhiều hơn thế.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.