Ước tính hiệu quả của chế độ đa biến


14

Phiên bản ngắn: Phương pháp tính toán hiệu quả nhất để ước tính chế độ của tập dữ liệu đa chiều, được lấy mẫu từ phân phối liên tục là gì?

Phiên bản dài: Tôi đã có một bộ dữ liệu mà tôi cần để ước tính chế độ. Chế độ không trùng với giá trị trung bình hoặc trung bình. Một mẫu được hiển thị bên dưới, đây là một ví dụ 2D, nhưng giải pháp ND sẽ tốt hơn: nhập mô tả hình ảnh ở đây

Hiện tại, phương pháp của tôi là

  1. Tính toán ước tính mật độ hạt nhân trên lưới bằng độ phân giải mong muốn của chế độ
  2. Tìm kiếm điểm tính toán lớn nhất

Rõ ràng, điều này tính toán KDE ở rất nhiều điểm không hợp lý, điều này đặc biệt xấu nếu có nhiều điểm dữ liệu có kích thước cao hoặc tôi mong đợi độ phân giải tốt trên chế độ.

Một cách khác là sử dụng thuật toán ủ mô phỏng, thuật toán di truyền, v.v để tìm đỉnh toàn cầu trong KDE.

Câu hỏi đặt ra là liệu có một phương pháp thông minh hơn để thực hiện phép tính này?


Tôi không biết câu trả lời nhưng tôi nghĩ đây là một câu hỏi hay. Thật khó cho tôi để nghĩ về các phương pháp tốt hơn so với những cách bạn đã đề cập. tôi nghĩ có sự khác biệt giữa cách tiếp cận ước lượng nhân đơn biến so với đa biến. Cuốn sách này của David Scott có thể hữu ích về cách tiếp cận hạt nhân đa biến, mặc dù tôi không chắc ông thảo luận về săn bắn đỉnh điểm. amazon.com/ Nhật Bản
Michael R. Chernick

Câu trả lời:


7

KKf(x)Kf(x)K

Một giải trình rất chi tiết về thuật toán cũng được đưa ra trong mục blog này .


3
Các tài liệu tham khảo thú vị, gần đây, Larry Wasserman cũng có một bài viết ngắn hơn mô tả kỹ thuật này ít chi tiết hơn, Thuật toán dịch chuyển trung bình tuyệt vời .
Andy W

1
@AndyW Gọi tốt! Bài viết của Larry Wasserman (và blog của anh ấy nói chung) là tuyệt vời. Xem qua các bình luận, tôi tìm thấy tài liệu tham khảo minh họa này về dịch chuyển trung bình, dịch chuyển trung gian và một biến thể, QuickShift.
Sameer

2
Cảm ơn. Không thể nói liệu cái đó là nhanh nhất, nhưng nó chắc chắn tìm thấy tối đa cục bộ. Dưới đây là một số sơ đồ về quỹ đạo và tốc độ học tập trên một số dữ liệu tổng hợp .
tkw954

9

Nếu mối quan tâm chính của bạn là các vấn đề 2 chiều, tôi sẽ nói rằng ước tính mật độ hạt nhân là một lựa chọn tốt vì nó có các đặc tính tiệm cận tốt (lưu ý rằng tôi không nói rằng đó là tốt nhất). Xem ví dụ

Parzen, E. (1962). Về ước tính của một hàm mật độ xác suất và chế độ . Biên niên sử thống kê toán học 33: 1065 trừ1076.

de Valpine, P. (2004). Khả năng không gian trạng thái Monte Carlo bằng cách ước tính mật độ hạt nhân sau có trọng số . Tạp chí của Hiệp hội Thống kê Hoa Kỳ 99: 523-536.

Đối với kích thước cao hơn (4+), phương pháp này thực sự chậm do khó khăn nổi tiếng trong việc ước tính ma trận băng thông tối ưu, xem .

Bây giờ, vấn đề với lệnh kstrong gói KDElà, như bạn đã đề cập, nó đánh giá mật độ trong một lưới cụ thể có thể rất hạn chế. Vấn đề này có thể được giải quyết nếu bạn sử dụng gói KDEđể ước tính ma trận băng thông, ví dụ sử dụng công Hscvcụ ước tính mật độ hạt nhân và sau đó tối ưu hóa chức năng này bằng lệnh optim. Điều này được hiển thị bên dưới bằng cách sử dụng dữ liệu mô phỏng và nhân Gaussian R.

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

Các công cụ ước tính giới hạn hình dạng có xu hướng nhanh hơn, ví dụ

Cule, ML, Samworth, RJ và Stewart, MI (2010). Ước tính khả năng tối đa của mật độ log-lõm đa chiều . Tạp chí Hiệp hội Thống kê Hoàng gia B 72: 545 Từ 600.

Nhưng họ quá đỉnh cho mục đích này.

4

Các phương pháp khác mà bạn có thể cân nhắc sử dụng là: lắp hỗn hợp hữu hạn đa biến gồm các quy tắc (hoặc phân phối linh hoạt khác) hoặc

Áp-ra-ham, C., Biau, G. và Cán bộ, B. (2003). Ước tính đơn giản của chế độ của mật độ đa biến . Tạp chí Thống kê Canada 31: 23 Hàng34.

Tôi hi vọng cái này giúp được.


0

Gần đây, chúng tôi đã xuất bản một bài báo cho thấy một công cụ ước tính chế độ nhất quán nhanh.

PS Ruzankin và AV Logachov (2019). Một công cụ ước tính chế độ nhanh trong không gian đa chiều. Số liệu thống kê và xác suất

O(dn)dn

Tôi cũng sẽ đề xuất các công cụ ước tính phương sai tối thiểu mới từ bài báo gần đây của tôi

PS Ruzankin (2020). Một lớp các công cụ ước tính chế độ không tham số. Truyền thông trong Thống kê - Mô phỏng và Tính toán

O(dn2)nRd

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.