Các ý kiến trong mã dường như cuối cùng xác định hai cái cơ bản giống hệt nhau (dành một sự khác biệt tương đối nhỏ trong hằng số).
Cả hai đều có dạng , cả với những gì trông giống như giống nhau (ước tính quy mô), và là rất gần với 1 (liên quan chặt chẽ đến sự không chắc chắn điển hình trong dự toán của băng thông tối ưu ).c A n- 1 / 5Mộtc
[Ước tính binwdith thường hơn dường như được gắn liền với Scott là một từ giấy 1979 của mình [1] ( ) - ví dụ như thấy Wikipedia - cuộn xuống một chút - hoặc R của .]3,49 s n- 1 / 3nclass.scott
1.059 trong cái mà mã gọi là "Ước tính Scott" nằm trong cuốn sách (trước) của Silverman (xem p45 của tài liệu tham khảo Silverman tại liên kết của bạn - dẫn xuất của Scott về nó nằm trên p130-131 của cuốn sách mà họ đề cập đến). Nó xuất phát từ một ước tính lý thuyết bình thường.
Băng thông tối ưu (theo thuật ngữ lỗi bình phương trung bình tích hợp) là một chức năng của đạo hàm thứ hai bình phương tích hợp và xuất phát từ phép tính đó cho một phép tính bình thường, nhưng trong nhiều trường hợp, đó là một thỏa thuận tốt hơn rộng hơn so với các phân phối khác .1,059 σ
Các hạn là một ước tính của (loại một ước tính robustified, trong một cách mà làm giảm xu hướng cho nó là quá lớn nếu có kẻ xuất / độ lệch / đuôi nặng). Xem eq 3.30 trên p47, được chứng minh trên p46-7.Mộtσ
Vì những lý do tương tự với những lý do tôi đã đề xuất trước đây, Silverman tiếp tục đề xuất giảm 1.059 (thực tế anh ta thực sự sử dụng 1.06 xuyên suốt chứ không phải 1.059 - như Scott trong cuốn sách của anh ta). Anh ta chọn một giá trị giảm mà mất hiệu quả không quá 10% trên IMSE ở mức bình thường, đó là nơi 0,9 xuất phát.
Vì vậy, cả hai băng thông này đều dựa trên độ rộng băng thông tối ưu IMSE ở mức bình thường, một bên phải ở mức tối ưu, bên kia (nhỏ hơn khoảng 15%, để đạt được 90% hiệu quả của mức tối ưu ở mức bình thường). [Tôi gọi cả hai ước tính "Silverman". Tôi không biết tại sao họ đặt tên 1.059 cho Scott.]
Theo tôi, cả hai đều quá lớn. Tôi không sử dụng biểu đồ để có được ước tính mật độ tối ưu IMSE. Nếu điều đó (có được ước tính về mật độ tối ưu theo nghĩa IMSE) là điều tôi muốn làm, tôi sẽ không muốn sử dụng biểu đồ cho mục đích đó.
Biểu đồ nên bị lỗi ở phía nhiễu hơn (để mắt làm mịn cần thiết). Tôi gần như luôn luôn nhân đôi (hoặc nhiều hơn) số thùng mặc định mà các loại quy tắc này đưa ra. Vì vậy, tôi sẽ không sử dụng 1.06 hoặc 0.9, tôi có xu hướng sử dụng khoảng 0,5, có thể ít hơn ở các cỡ mẫu thực sự lớn.
Thực sự có rất ít lựa chọn giữa chúng, vì cả hai đều cung cấp quá ít thùng để sử dụng nhiều trong việc tìm kiếm những gì đang diễn ra trong dữ liệu (ít nhất là ở các cỡ mẫu nhỏ, xem tại đây .
[1]: Scott, DW (1979), "Trên biểu đồ tối ưu và dựa trên dữ liệu," Biometrika , 66 , 605-610.