Số lượng thùng tối ưu trong biểu đồ theo quy tắc Freedman nhỏ Diaconis: sự khác biệt giữa tỷ lệ lý thuyết và số thực tế


8

Wikipedia báo cáo rằng theo quy tắc Freedman và Diaconis, số lượng thùng tối ưu trong biểu đồ, sẽ tăng lên khik

kn1/3

Trong đó là cỡ mẫu.n

Tuy nhiên, nếu bạn xem nclass.FDhàm trong R, thực hiện quy tắc này, ít nhất là với dữ liệu Gaussian và khi , số lượng thùng dường như tăng với tốc độ nhanh hơn , gần hơn với (thực ra, mức phù hợp nhất gợi ý ). Lý do cho sự khác biệt này là gì?log(n)(8,16)n1/3n11/3mn0.4


Chỉnh sửa: thêm thông tin:

nhập mô tả hình ảnh ở đây

Đường dây là một OLS, với khả năng chặn 0.429 và độ dốc 0.4. Trong mỗi trường hợp, dữ liệu ( x) được tạo từ một gaussian chuẩn và được đưa vào nclass.FD. Biểu đồ mô tả kích thước (chiều dài) của vectơ so với số lớp tối ưu được trả về bởi nclass.FDhàm.

Trích dẫn từ wikipedia:

Một lý do chính đáng tại sao số lượng thùng phải tỷ lệ với là như sau: giả sử rằng dữ liệu thu được dưới dạng n thực hiện độc lập phân phối xác suất giới hạn với mật độ mịn. Sau đó, biểu đồ vẫn bằng nhau »gồ ghề« vì n có xu hướng vô cùng. Nếu là »chiều rộng« của phân phối (ví dụ: độ lệch chuẩn hoặc phạm vi giữa các phần tư), thì số đơn vị trong một thùng (tần số) là thứ tự và lỗi tiêu chuẩn tương đối là theo thứ tự . So sánh với thùng tiếp theo, sự thay đổi tương đối của tần số là thứ tự với điều kiện là đạo hàm của mật độ là khác không. Hai cái này có cùng thứ tự nếun1/3snh/ss/(nh)h/shlà thứ tự , do đó là thứ tự .s/n1/3kn1/3

Quy tắc FreedmanTHER Diaconis là:

h=2IQR(x)n1/3

Khi tôi nhớ lại số bin tỷ lệ thuận với , không như báo cáo ở trên. n1/3
Nick Cox

1
Bây giờ là muộn để tôi kiểm tra tài liệu, nhưng công thức của bạn không có tiếng chuông với tôi.
Nick Cox

Chắc chắn đây không phải là những gì nhiều hơn các quy tắc hợp lý, và do đó, một sự khác biệt là không có nhập khẩu lý thuyết. Có nhiều hơn thế không?
Michael Lew

1
Bạn không âm mưu ; bạn dường như đang âm mưu (làm tròn lên). Trừ khi bạn đang chuẩn hóa các bộ dữ liệu của mình thành một giá trị không đổi là , thì âm mưu này là những thay đổi gây nhiễu trong phạm vi với những thay đổi trong (có lẽ IQR sẽ khá ổn định). Vì vậy, chính xác những gì bạn đang làm để tạo ra cốt truyện này? hk=Range n1/3/(2 IQR)Range/IQRk
whuber

2
@whuber: vâng, dường như đó là điều gây ra sự khác biệt: Tôi quên điều chỉnh để tăng phạm vi.
user603

Câu trả lời:


8

Lý do xuất phát từ thực tế là chức năng biểu đồ dự kiến ​​sẽ bao gồm tất cả dữ liệu, do đó nó phải trải rộng phạm vi của dữ liệu.

Quy tắc Freedman-Diaconis đưa ra một công thức cho chiều rộng của các thùng.

Hàm này đưa ra một công thức cho số lượng thùng.

Mối quan hệ giữa số lượng thùng và chiều rộng của thùng sẽ bị ảnh hưởng bởi phạm vi của dữ liệu.

Với dữ liệu Gaussian, phạm vi dự kiến ​​sẽ tăng lên với .n

Đây là chức năng:

> nclass.FD
function (x) 
{
    h <- stats::IQR(x)
    if (h == 0) 
        h <- stats::mad(x, constant = 2)
    if (h > 0) 
        ceiling(diff(range(x))/(2 * h * length(x)^(-1/3)))
    else 1L
}
<bytecode: 0x086e6938>
<environment: namespace:grDevices>

diff(range(x)) là phạm vi của dữ liệu.

Vì vậy, như chúng ta thấy, nó chia phạm vi dữ liệu theo công thức FD cho chiều rộng thùng (và làm tròn lên) để lấy số lượng thùng.

Dường như tôi có thể rõ ràng hơn, vì vậy đây là một lời giải thích chi tiết hơn:
Quy tắc Freedman-Diaconis thực tế không phải là quy tắc về số lượng thùng, mà là chiều rộng của thùng. Theo phân tích của họ, chiều rộng thùng phải tỷ lệ với . Do tổng chiều rộng của biểu đồ phải liên quan chặt chẽ với phạm vi mẫu (có thể rộng hơn một chút, do làm tròn đến số đẹp) và phạm vi dự kiến ​​thay đổi theo , số lượng thùng không hoàn toàn tỷ lệ nghịch với bin-width, nhưng phải tăng nhanh hơn thế. Vì vậy, số lượng thùng không nên tăng lên là - gần với nó, nhưng nhanh hơn một chút, vì cách phạm vi đi vào nó.n1/3nn1/3

Nhìn vào dữ liệu từ các bảng năm 1925 của Tippett [1], phạm vi dự kiến ​​trong các mẫu bình thường tiêu chuẩn dường như tăng khá chậm với , mặc dù - chậm hơn cả :nlog(n)

nhập mô tả hình ảnh ở đây

(thực sự, amip chỉ ra trong các bình luận bên dưới rằng nó phải tỷ lệ thuận - hoặc gần như vậy - với , phát triển chậm hơn so với phân tích của bạn trong câu hỏi dường như gợi ý. Điều này khiến tôi tự hỏi liệu có một số vấn đề khác đang đến, nhưng tôi chưa điều tra xem liệu hiệu ứng phạm vi này có giải thích đầy đủ dữ liệu của bạn hay không.)log(n)

Nhìn nhanh vào các số của Tippett (tăng đến n = 1000) cho thấy phạm vi dự kiến ​​trong Gaussian rất gần với tuyến tính trong trên , nhưng có vẻ như không thực sự tỷ lệ thuận với các giá trị trong phạm vi này.log(n)10n1000

nhập mô tả hình ảnh ở đây

[1]: LHC Tippett (1925). "Về các cá nhân cực đoan và phạm vi mẫu được lấy từ dân số bình thường". Biometrika 17 (3/4): 364 Từ387


1
Không thực sự, không. Thêm chi tiết được thêm vào.
Glen_b -Reinstate Monica

1
Quy tắc Freedman-Diaconis thực tế không phải là quy tắc về số lượng thùng, mà là chiều rộng của thùng. Theo phân tích của họ, chiều rộng thùng phải tỷ lệ với . Do tổng chiều rộng của biểu đồ phải liên quan chặt chẽ với phạm vi mẫu (có thể rộng hơn một chút, do làm tròn đến số đẹp) và phạm vi dự kiến ​​thay đổi theo , số lượng thùng không hoàn toàn tỷ lệ nghịch với chiều rộng thùng. Vì vậy, số lượng thùng không nên tăng lên là - ít nhất là không hoàn toàn, vì cách phạm vi đi vào nó. n1/3nn1/3
Glen_b -Reinstate Monica

3
Lý do bạn trích dẫn từ wikipedia trong câu hỏi của bạn không tính đến ảnh hưởng của phạm vi mẫu.
Glen_b -Reinstate Monica

1
Tôi nghĩ rằng điều này giải quyết nó.
user603

2
log(n)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.