Wikipedia báo cáo rằng theo quy tắc Freedman và Diaconis, số lượng thùng tối ưu trong biểu đồ, sẽ tăng lên khi
Trong đó là cỡ mẫu.
Tuy nhiên, nếu bạn xem nclass.FD
hàm trong R, thực hiện quy tắc này, ít nhất là với dữ liệu Gaussian và khi , số lượng thùng dường như tăng với tốc độ nhanh hơn , gần hơn với (thực ra, mức phù hợp nhất gợi ý ). Lý do cho sự khác biệt này là gì?
Chỉnh sửa: thêm thông tin:
Đường dây là một OLS, với khả năng chặn 0.429 và độ dốc 0.4. Trong mỗi trường hợp, dữ liệu ( x
) được tạo từ một gaussian chuẩn và được đưa vào nclass.FD
. Biểu đồ mô tả kích thước (chiều dài) của vectơ so với số lớp tối ưu được trả về bởi nclass.FD
hàm.
Trích dẫn từ wikipedia:
Một lý do chính đáng tại sao số lượng thùng phải tỷ lệ với là như sau: giả sử rằng dữ liệu thu được dưới dạng n thực hiện độc lập phân phối xác suất giới hạn với mật độ mịn. Sau đó, biểu đồ vẫn bằng nhau »gồ ghề« vì n có xu hướng vô cùng. Nếu là »chiều rộng« của phân phối (ví dụ: độ lệch chuẩn hoặc phạm vi giữa các phần tư), thì số đơn vị trong một thùng (tần số) là thứ tự và lỗi tiêu chuẩn tương đối là theo thứ tự . So sánh với thùng tiếp theo, sự thay đổi tương đối của tần số là thứ tự với điều kiện là đạo hàm của mật độ là khác không. Hai cái này có cùng thứ tự nếulà thứ tự , do đó là thứ tự .
Quy tắc FreedmanTHER Diaconis là: