Nếu độ rộng hạt nhân thay đổi thường tốt cho hồi quy hạt nhân, tại sao chúng thường không tốt cho ước tính mật độ hạt nhân?


17

Câu hỏi này được nhắc nhở bằng cách thảo luận ở nơi khác .

Hạt nhân biến thường được sử dụng trong hồi quy cục bộ. Ví dụ, hoàng thổ được sử dụng rộng rãi và hoạt động tốt như hồi quy mượt mà hơn và dựa trên một hạt nhân có chiều rộng thay đổi thích nghi với độ thưa thớt dữ liệu.

Mặt khác, các hạt nhân biến đổi thường được cho là dẫn đến các công cụ ước tính kém trong ước tính mật độ hạt nhân (xem Terrell và Scott, 1992 ).

Có một lý do trực quan tại sao họ sẽ làm việc tốt cho hồi quy nhưng không phải để ước tính mật độ?


2
Bạn đã viết "Mặt khác, các hạt nhân biến thường được cho là dẫn đến các công cụ ước tính kém trong ước tính mật độ hạt nhân", phần nào của bài báo mà bạn đề cập khiến bạn tin vào điều đó? Tôi có rất nhiều tài liệu tham khảo đi theo hướng khác, xem ví dụ các tài liệu tham khảo được đề cập trong bài viết này: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf
robin girard

1
Bản tóm tắt của Terrell và Scott tóm tắt rất hay: "Công cụ ước tính lân cận gần nhất trong tất cả các phiên bản hoạt động kém ở một và hai chiều". Họ dường như chỉ tìm thấy nhiều lợi thế trong ước tính mật độ đa biến.
Rob Hyndman

3
"Hàng xóm gần nhất" không phải là hạt nhân biến duy nhất. Các bài báo tôi đề cập sử dụng công cụ khác như thuật toán Lepskii. Tôi sẽ đọc báo AOS nhưng vì hiệu suất của hàng xóm gần nhất sẽ giảm theo kích thước, tôi thấy lạ là việc tăng kích thước mang lại lợi thế cho công cụ ước tính "rất không tham số" (Nếu chúng tôi thừa nhận băng thông không đổi thì ít tham số hơn băng thông khác nhau). Trong loại tình huống này, trường hợp đánh giá được sử dụng thường xác định kết quả ...
robin girard

@Robin Girard:> * thấy lạ là việc tăng kích thước mang lại lợi thế cho công cụ ước tính "rất không tham số" (Nếu chúng tôi thừa nhận băng thông không đổi là không tham số hơn so với băng thông khác nhau) * có câu đánh máy nào trong câu này không? Nếu không, bạn dường như đồng ý với các tác giả, ít nhất là ở mức độ trực quan. Nhờ xác nhận / chính xác.
dùng603

@kwak nhờ thông báo mà! Đây là một lỗi đánh máy: Tôi muốn nói rằng băng thông không đổi ít NP hơn ... Tôi không thể sửa đổi nhận xét của mình :( xin lỗi về điều đó.
robin girard

Câu trả lời:


2

Dường như có hai câu hỏi khác nhau ở đây, mà tôi sẽ cố gắng phân tách:

1) Làm thế nào là KS, làm mịn kernel, khác với KDE, ước tính mật độ kernel? Vâng, giả sử tôi có một công cụ ước tính / mượt mà / nội suy

est( xi, fi -> gridj, estj )

và cũng tình cờ biết mật độ "thực" () tại xi. Sau đó, việc chạy est( x, densityf ) phải đưa ra ước tính về mật độ (): một KDE. Cũng có thể là các KS và KDE được đánh giá khác nhau - tiêu chí độ mịn khác nhau, chỉ tiêu khác nhau - nhưng tôi không thấy sự khác biệt cơ bản. Tôi đang thiếu gì?

2) Làm thế nào để kích thước ảnh hưởng đến ước tính hoặc làm mịn, trực giác ? Đây là một ví dụ đồ chơi, chỉ để giúp trực giác. Hãy xem xét một hộp có N = 10000 điểm trong một lưới thống nhất và một cửa sổ, một đường thẳng hoặc hình vuông hoặc khối lập phương, có W = 64 điểm trong đó:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Ở đây "tỷ lệ bên" là bên cửa sổ / bên hộp và "dist to win" là ước tính sơ bộ về khoảng cách trung bình của một điểm ngẫu nhiên trong hộp đến cửa sổ được đặt ngẫu nhiên.

Điều này có ý nghĩa gì không ? (Một hình ảnh hoặc applet thực sự sẽ giúp: bất cứ ai?)

Ý tưởng là một cửa sổ kích thước cố định trong một hộp có kích thước cố định có độ gần rất khác với phần còn lại của hộp, trong 1d 2d 3d 4d. Đây là cho một lưới thống nhất; có thể sự phụ thuộc mạnh mẽ vào kích thước mang đến các phân phối khác, có thể không. Dù sao, nó trông giống như một hiệu ứng chung mạnh mẽ, một khía cạnh của lời nguyền của chiều.


0

Ước tính mật độ hạt nhân có nghĩa là tích hợp trên một cửa sổ cục bộ (mờ) và làm mịn hạt nhân có nghĩa là trung bình trên một cửa sổ cục bộ (mờ).

Làm mịn hạt nhân: .y~(x)α1ρ(x)ΣK(||x-xTôi||)yTôi

Ước tính mật độ hạt nhân: .ρ(x)αΣK(||x-xTôi||)

Làm thế nào là giống nhau?

Xem xét các mẫu của hàm có giá trị boolean, tức là một tập hợp chứa cả "mẫu đúng" (mỗi mẫu có giá trị đơn vị) và "mẫu sai" (mỗi mẫu có giá trị bằng 0). Giả sử mật độ mẫu tổng thể là không đổi (như một mạng lưới), tỷ lệ trung bình tại địa phương của chức năng này là hệt tỉ lệ với (hóa từng phần) mật độ cục bộ của tập con thực sự có giá trị. (Các mẫu sai cho phép chúng tôi liên tục bỏ qua mẫu số của phương trình làm mịn, trong khi thêm các số hạng bằng 0 vào phép tính tổng, để nó đơn giản hóa thành phương trình ước lượng mật độ.)

Tương tự nếu các mẫu của bạn được biểu diễn dưới dạng các phần tử thưa thớt trên raster boolean, bạn có thể ước tính mật độ của chúng bằng cách áp dụng bộ lọc mờ cho raster.

Những cái này khác nhau như thế nào?

Theo trực giác, bạn có thể mong đợi sự lựa chọn thuật toán làm mịn phụ thuộc vào việc các phép đo mẫu có chứa lỗi đo lường đáng kể hay không.

Ở một thái cực (không có nhiễu), bạn chỉ cần nội suy giữa các giá trị được biết chính xác tại các vị trí mẫu. Nói, bằng phép tam giác Delaunay (với phép nội suy song tuyến tính).

Ước tính mật độ tương tự như cực trị ngược lại, nó hoàn toàn là nhiễu, vì mẫu trong sự cô lập không đi kèm với phép đo giá trị mật độ tại điểm đó. (Vì vậy, không có gì đơn giản để nội suy. Bạn có thể xem xét đo các khu vực ô sơ đồ Voronoi, nhưng làm mịn / khử nhiễu vẫn sẽ rất quan trọng ..)

Vấn đề là mặc dù có sự tương đồng nhưng đây là những vấn đề cơ bản khác nhau, vì vậy các cách tiếp cận khác nhau có thể là tối ưu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.