Ước tính mật độ hạt nhân của mình là một tổ hợp của cái gì?


25

Tôi đang cố gắng để hiểu rõ hơn về ước tính mật độ hạt nhân.

Sử dụng định nghĩa từ Wikipedia: https://en.wikipedia.org/wiki/Kernel_d mật_estimation # DefDef

fh^(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

Giả sử là hàm hình chữ nhật cho nếu nằm trong khoảng đến và và (kích thước cửa sổ) là 1.1 x - 0,5 0,5 0 giờK()1x0.50.50h

Tôi hiểu rằng mật độ là một tổ hợp của hai hàm, nhưng tôi không chắc tôi biết cách xác định hai hàm này. Một trong số chúng (có lẽ) là một hàm của dữ liệu, với mỗi điểm trong R, cho chúng ta biết có bao nhiêu điểm dữ liệu chúng ta có ở vị trí đó (chủ yếu là ). Và chức năng khác có lẽ nên là một số sửa đổi của chức năng kernel, kết hợp với kích thước cửa sổ. Nhưng tôi không chắc làm thế nào để xác định nó.0

Bất kỳ đề xuất?

Bellow là một mã R ví dụ (tôi nghi ngờ) sao chép các cài đặt mà tôi đã xác định ở trên (với hỗn hợp hai Gaussian và ), trên đó tôi hy vọng sẽ thấy một "bằng chứng" rằng các hàm sẽ bị phá hủy là như chúng ta nghi ngờ .n=100

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

nhập mô tả hình ảnh ở đây


3
Tấm thảm của bạn ở phía dưới cho một số trực giác thô. Hãy tưởng tượng mỗi giá trị từ đến là một đột biến có trọng số liên kết . Bây giờ hãy bôi nhọ từng cành bằng cách sử dụng hình dạng và chiều rộng của hạt nhân của bạn, sao cho cành được biến đổi để có cùng hình dạng và chiều rộng, với chiều cao sao cho diện tích bên dưới là . Thêm kết quả và bạn có một ước tính mật độ hạt nhân. i = 1 n 1 / n 1 / nxii=1n1/n1/n
Nick Cox

Xin chào Nick, cảm ơn bạn đã bình luận. Điều này đến nay trong trực giác mà tôi đã có, đó là việc biến nó chính thức thành hình thức của sự kết án mà tôi tò mò muốn thấy :) (Tôi rất háo hức bây giờ đi qua câu trả lời của Whuber's!)
Tal Galili

Câu trả lời:


27

Tương ứng với bất kỳ loạt số liệu X=(x1,x2,,xn) là "hàm mật độ thực nghiệm" của nó

fX(x)=1ni=1nδ(xxi).

Ở đây, là một "hàm tổng quát." Mặc dù tên đó, nó hoàn toàn không phải là một hàm: đó là một đối tượng toán học mới chỉ có thể được sử dụng trong các tích phân. Thuộc tính xác định của nó là cho bất kỳ chức năng hỗ trợ nhỏ gọn nào liên tục trong vùng lân cận ,δg0

Rδ(x)g(x)dx=g(0).

(Tên của bao gồm "nguyên tử" hoặc "điểm" và " Hàm delta Dirac ." Trong phép tính sau, khái niệm này được mở rộng để bao gồm các hàm chỉ liên tục từ một phía.)δg

Chứng minh đặc tính này của là quan sát rằngfX

xfX(y)dy=x1ni=1nδ(yxi)dy=1ni=1nxδ(yxi)dy=1ni=1nRI(yx)δ(yxi)dy=1ni=1nI(xix)=FX(x)

trong đó là CDF theo kinh nghiệm thông thường và là hàm đặc trưng thông thường (bằng trong đó đối số của nó là đúng và khác). (Tôi bỏ qua một đối số giới hạn cơ bản cần thiết để chuyển từ các hàm hỗ trợ nhỏ gọn sang các hàm được xác định qua ; vì chỉ cần xác định các giá trị trong phạm vi , nhỏ gọn, điều này không có vấn đề gì.)FXI10RIX

Định nghĩa của với bất kỳ hàm nào khác được đưa ra, theo định nghĩa, nhưfX(x)k

(fXk)(x)=RfX(xy)k(y)dy=R1ni=1nδ(xyxi)k(y)dy=1ni=1nRδ(xyxi)k(y)dy=1ni=1nk(xix).

Để (giống với cho các hạt đối xứng - và hầu hết các hạt nhân đều đối xứng) chúng ta thu được kết quả được yêu cầu: công thức Wikipedia là một tích chập.k(x)=Kh(x)Kh(x)


1
Tình huống theo hai chiều được giải thích (theo thuật ngữ thông tục hơn) và được minh họa trên trang web của địa chỉ gis.stackexchange.com/questions/14374/ .
whuber

1
Kính gửi Whuber, tôi vừa đi qua và đọc câu trả lời của bạn với sự thích thú! Cảm ơn bạn rất nhiều vì lời giải thích và chi tiết, câu trả lời của bạn (câu hỏi này và những người khác nói chung) thực sự truyền cảm hứng. Bạn, Tal
Tal Galili

1
@Jan Sự hiểu biết của bạn không hoàn toàn chính xác. Không có "mật độ" theo kinh nghiệm theo nghĩa của một biện pháp liên tục hữu hạn. Hàm chỉ báo của dữ liệu tích hợp về 0 (cho dù bạn sử dụng tích hợp Lebesgue hay tích hợp Riemann cũng không có gì khác biệt). Hàm tổng quát không phải là một hàm: đó là một đối tượng toán học mới chỉ có thể được sử dụng trong các tích phân. Phân phối theo kinh nghiệm là một đối tượng toán học, khi được tích hợp với bất kỳ hàm tích hợp sẽ trả về tổng (trên tất cả dữ liệu ) của các giá trịg , x i g ( x i ) .δg,xig(xi).
whuber

1
@whuber Cảm ơn bạn. Câu Hàm tổng quát hoàn toàn không phải là một hàm: đó là một đối tượng toán học mới chỉ có thể được sử dụng trong các tích phân. làm cho nó rõ ràng hơn. vào điểm như mọi khi. ;)
Jan Vainer

1
@Jan Cảm ơn sự giúp đỡ của bạn: Tôi đã kết hợp ý tưởng đó trong câu trả lời này.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.