Băng thông hạt nhân trong ước tính mật độ hạt nhân

10

Tôi đang thực hiện một số ước tính mật độ hạt nhân, với tập hợp các điểm có trọng số (nghĩa là, mỗi mẫu có trọng số không cần thiết), theo kích thước N. Ngoài ra, các mẫu này chỉ trong một không gian số liệu (nghĩa là, chúng ta có thể xác định khoảng cách giữa chúng) nhưng không có gì khác. Ví dụ: chúng ta không thể xác định giá trị trung bình của các điểm mẫu, cũng như độ lệch chuẩn, cũng không chia tỷ lệ một biến so với biến khác. Hạt nhân chỉ bị ảnh hưởng bởi khoảng cách này và trọng lượng của từng mẫu:

f (x) = \frac{1.}{\sum w e i g h t s_{i}} * \sum \frac{w e i g h t_{i}}{h} * K e r n e l (\frac{d i s t a n c e (x, x_{i})}{h})

$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$

Trong bối cảnh này, tôi đang cố gắng tìm một ước lượng mạnh mẽ cho băng thông kernel , có thể thay đổi theo không gian và tốt nhất là sẽ tái cấu trúc chính xác trên tập dữ liệu huấn luyện . Nếu cần thiết, chúng ta có thể giả định rằng chức năng tương đối trơn tru. $h$ $x_i$

Tôi đã thử sử dụng khoảng cách đến hàng xóm gần nhất thứ nhất hoặc thứ hai nhưng nó cho kết quả khá tệ. Tôi đã thử với tối ưu hóa một lần, nhưng tôi gặp khó khăn khi tìm một biện pháp tốt để tối ưu hóa trong bối cảnh này trong Nd, vì vậy nó tìm thấy các ước tính rất xấu, đặc biệt là cho các mẫu đào tạo. Tôi không thể sử dụng ước tính tham lam dựa trên giả định thông thường vì tôi không thể tính độ lệch chuẩn. Tôi đã tìm thấy các tài liệu tham khảo bằng cách sử dụng ma trận hiệp phương sai để lấy các hạt nhân dị hướng, nhưng một lần nữa, nó sẽ không giữ được trong không gian này ...

Ai đó có một ý tưởng hoặc một tài liệu tham khảo?

pdf smoothing kernel-smoothing

— WhitAngl
nguồn

Nếu bạn có thể đo khoảng cách, thì bạn có thể đo một giá trị trung bình. Có đúng không? Tôi có thể nói "Tôi đang sử dụng khoảng cách cosine cho các từ" vì vậy "một từ có nghĩa không thực sự có nhiều ý nghĩa", nhưng tôi không hiểu tại sao nó vẫn không thể được tính toán. Bạn có thể nói rằng bạn đang ở trong một không gian thứ tự, vì vậy giá trị trung bình không liên tục có giá trị. Tại sao có nghĩa là không thể xác định?

— EngrStudent

3

$k$

— shabbychef
nguồn

2

Trên Matlab File Exchange, có một hàm kde cung cấp băng thông tối ưu với giả định rằng hạt nhân Gaussian được sử dụng: Công cụ ước tính mật độ hạt nhân .

Ngay cả khi bạn không sử dụng Matlab, bạn có thể phân tích cú pháp mã này để tính toán băng thông tối ưu. Đây là một chức năng được đánh giá cao về trao đổi tập tin và tôi đã sử dụng nó nhiều lần.

— Elpezmuerto
nguồn