Lời khuyên của tôi nói chung là nó thậm chí còn quan trọng hơn trong 1-D để làm trơn tru mọi nơi có thể, ví dụ như thực hiện một số thứ như ước tính mật độ hạt nhân (hoặc một số phương pháp khác, như ước tính log-spline), có xu hướng hiệu quả hơn so với sử dụng biểu đồ. Như whuber chỉ ra, hoàn toàn có thể bị đánh lừa bởi sự xuất hiện của biểu đồ, đặc biệt là với một vài thùng và cỡ mẫu nhỏ đến trung bình.
Nếu bạn đang cố gắng tối ưu hóa lỗi bình phương tích hợp (MISE), có nghĩa là có các quy tắc áp dụng ở các kích thước cao hơn (số lượng thùng phụ thuộc vào số lượng quan sát, phương sai, kích thước và "hình dạng"), cho cả ước tính mật độ hạt nhân và biểu đồ.
[Trên thực tế nhiều vấn đề cho người ta cũng là những vấn đề cho người khác, vì vậy một số thông tin trong này bài viết wikipedia sẽ có liên quan.]
Sự phụ thuộc vào hình dạng này dường như ngụ ý rằng để chọn tối ưu, bạn đã cần phải biết những gì bạn đang âm mưu. Tuy nhiên, nếu bạn chuẩn bị đưa ra một số giả định hợp lý, bạn có thể sử dụng những giả định đó (ví dụ: một số người có thể nói "xấp xỉ Gaussian") hoặc cách khác, bạn có thể sử dụng một số công cụ ước tính "trình cắm" phù hợp chức năng.
Wand, 1997 bao gồm trường hợp 1-D. Nếu bạn có thể có được bài viết đó, hãy xem càng nhiều những gì cũng có liên quan đến tình huống ở các chiều cao hơn (cho đến khi các loại phân tích được thực hiện). (Nó tồn tại ở dạng giấy làm việc trên internet nếu bạn không có quyền truy cập vào tạp chí.)[1]
Phân tích ở các kích thước cao hơn có phần phức tạp hơn (theo cách tương tự như cách tiến hành từ 1-D đến các kích thước r để ước tính mật độ hạt nhân), nhưng có một thuật ngữ theo chiều hướng đi vào sức mạnh của n.
Sec 3,4 Eqn 3,61 (p83) của Scott, 1992 mang lại cho băng thông tối ưu không có triệu chứng:[2]
h∗=R(fk)−1/2(6∏di=1R(fi)1/2)1/(2+d)n−1/(2+d)
Trong đó là một thuật ngữ thô (không phải là duy nhất có thể) và tôi tin rằng là đạo hàm của đối với hạn trong .R(f)=∫Rdf(x)2dxfifithx
Vì vậy, đối với 2D, đề xuất các băng thông co lại là .n−1/4
Trong trường hợp các biến thông thường độc lập, quy tắc gần đúng là , trong đó là độ rộng theo chiều , chỉ ra giá trị tối ưu không có triệu chứng, và là độ lệch chuẩn dân số theo chiều .h∗k≈3.5σkn−1/(2+d)hkk∗σkk
Đối với bivariate bình thường với tương quan , băng thông làρ
h∗i=3.504σi(1−ρ2)3/8n−1/4
Khi phân phối bị lệch, hoặc đuôi nặng, hoặc đa phương thức, thường có kết quả là băng thông nhỏ hơn nhiều; do đó, kết quả bình thường thường sẽ ở giới hạn trên tốt nhất trên bindwith.
Tất nhiên, hoàn toàn có thể bạn không quan tâm đến lỗi bình phương tích hợp có nghĩa, nhưng trong một số tiêu chí khác.
[1]: Wand, MP (1997),
"Lựa chọn dựa trên dữ liệu về chiều rộng của biểu đồ",
Thống kê người Mỹ 51 , 59-64
[2]: Scott, DW (1992),
Ước tính mật độ đa biến: Lý thuyết, thực hành và trực quan hóa ,
John Wiley & Sons, Inc., Hoboken, NJ, USA.