Ước tính mật độ hạt nhân kết hợp độ không đảm bảo


12

Khi trực quan hóa dữ liệu một chiều, người ta thường sử dụng kỹ thuật Ước tính mật độ hạt nhân để tính toán độ rộng thùng được chọn không chính xác.

Khi bộ dữ liệu một chiều của tôi có độ không đảm bảo đo, có cách nào chuẩn để kết hợp thông tin này không?

Ví dụ (và tha thứ cho tôi nếu sự hiểu biết của tôi là ngây thơ) KDE kết hợp một cấu hình Gaussian với các hàm delta của các quan sát. Hạt nhân Gaussian này được chia sẻ giữa mỗi vị trí, nhưng tham số Gaussian có thể được thay đổi để phù hợp với độ không đảm bảo đo. Có một cách tiêu chuẩn để thực hiện điều này? Tôi hy vọng sẽ phản ánh các giá trị không chắc chắn với hạt nhân rộng.σ

Tôi đã thực hiện điều này đơn giản bằng Python, nhưng tôi không biết về một phương thức hoặc hàm tiêu chuẩn để thực hiện điều này. Có bất kỳ vấn đề trong kỹ thuật này? Tôi lưu ý rằng nó cung cấp cho một số biểu đồ tìm kiếm kỳ lạ! Ví dụ

So sánh KDE

Trong trường hợp này, các giá trị thấp có độ không đảm bảo lớn hơn do đó có xu hướng cung cấp các hạt phẳng rộng, trong khi KDE vượt quá các giá trị thấp (và không chắc chắn).


Bạn có nói rằng các đường cong màu đỏ là gaussian có chiều rộng thay đổi và đường cong màu xanh lá cây là tổng của chúng? (Điều đó có vẻ không hợp lý từ các biểu đồ này.)
whuber

Bạn có biết lỗi đo lường cho mỗi quan sát là gì không?
Aksakal

@whuber các đường cong màu đỏ là gaussian có chiều rộng thay đổi và đường cong màu xanh là tổng của chúng. Đường cong màu xanh lá cây là KDE với chiều rộng không đổi, xin lỗi vì sự nhầm lẫn
Simon Walker

@Aksakal có, mỗi phép đo có một độ không chắc chắn khác nhau
Simon Walker

Một vấn đề phụ, nhưng đó không phải là định nghĩa về ước tính mật độ hạt nhân mà bạn sử dụng hạt nhân Gaussian. Bạn có thể sử dụng bất kỳ hạt nhân nào bạn thích tích hợp vào 1, mặc dù một số hạt nhân hợp lý hoặc hữu ích hơn các hạt nhân khác ....
Nick Cox

Câu trả lời:


6

Nó có ý nghĩa để thay đổi độ rộng, nhưng không nhất thiết phải phù hợp với chiều rộng hạt nhân với độ không chắc chắn.

Xem xét mục đích của băng thông khi xử lý các biến ngẫu nhiên mà các quan sát về cơ bản không có sự không chắc chắn (nghĩa là bạn có thể quan sát chúng đủ gần chính xác) - ngay cả như vậy, kde sẽ không sử dụng băng thông bằng 0, vì băng thông liên quan đến sự thay đổi trong phân phối, thay vì sự không chắc chắn trong quan sát (nghĩa là "sự khác biệt giữa quan sát", không phải là "sự không chắc chắn trong quan sát").

Những gì bạn có về cơ bản là nguồn biến thể bổ sung (trong trường hợp 'không có sự không chắc chắn quan sát') khác nhau cho mỗi quan sát.

σi

Một cách khác để xem xét vấn đề sẽ là coi mỗi quan sát là một hạt nhân nhỏ (như bạn đã làm, sẽ đại diện cho nơi quan sát có thể đã được), nhưng kết hợp hạt nhân (kde-) thông thường (thường là chiều rộng cố định, nhưng không cần phải có) với hạt nhân không chắc chắn quan sát và sau đó thực hiện ước tính mật độ kết hợp. (Tôi tin rằng đó thực sự là kết quả giống như những gì tôi đề xuất ở trên.)


2

Tôi sẽ áp dụng công cụ ước tính mật độ hạt nhân băng thông thay đổi, ví dụ: Bộ chọn băng thông cục bộ cho giấy ước tính mật độ hạt nhân giải mã cố gắng xây dựng cửa sổ thích ứng KDE khi biết phân phối lỗi đo lường. Bạn đã nói rằng bạn biết phương sai lỗi, vì vậy phương pháp này nên được áp dụng trong trường hợp của bạn. Đây là một bài viết khác về cách tiếp cận tương tự với một mẫu bị ô nhiễm: LỰA CHỌN BANDWIDTH BOOTSTRAP TRONG DỰ ÁN DENSITY DÂN TỘC TỪ MỘT MẪU LIÊN QUAN


Liên kết đầu tiên của bạn đưa tôi đến ms.unimelb.edu.au , Đây không phải là bài báo. Tôi nghĩ bạn có nghĩa là link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

Những giải pháp này trông thật tuyệt! Bạn có biết một mã thực hiện những điều này?
Adi Ro

@AdiRo, tôi đã sửa liên kết bị hỏng. Tôi không có mã
Aksakal

0

Bạn có thể muốn tham khảo chương 6 trong "Ước tính mật độ đa biến: Lý thuyết, thực hành và trực quan hóa" của David W. Scott, 1992, Wiley.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()

0

Trên thực tế, tôi nghĩ rằng phương pháp mà bạn đề xuất có tên là Xác suất mật độ xác suất (PDP) được sử dụng rộng rãi trong khoa học địa lý, xem một bài báo ở đây: https://www.scTHERirect.com/science/article/pii/S0009254112001878

Tuy nhiên, có những hạn chế như được đề cập trong bài báo trên. Chẳng hạn như nếu các lỗi đo được là nhỏ, cuối cùng sẽ có các đột biến trong tệp PDF bạn nhận được. Nhưng người ta cũng có thể làm mịn PDP giống như cách của KDE, giống như những gì @ Glen_b ♦ đã đề cập

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.