"Kích thước thùng" trong biểu đồ có thể được coi là một ràng buộc thông thường không?


8

Khi nghĩ về biểu đồ như là một ước tính của hàm mật độ, có hợp lý không khi nghĩ kích thước bin là một tham số ràng buộc cấu trúc cục bộ của hàm đó?

Ngoài ra, có cách nào tốt hơn để nói rõ lý do này không?


Tôi nghĩ rằng bạn có thể xem ước tính mật độ hạt nhân
seanv507

Câu trả lời:


6

Vâng, đây là một cách hợp lý để suy nghĩ về nó (giả sử biểu đồ được chuẩn hóa để có được một pdf thích hợp). Chiều rộng thùng hạn chế độ mịn của ước tính mật độ (nói một cách lỏng lẻo, vì biểu đồ là các hàm không liên tục). Nó kiểm soát mức độ mà cấu trúc tốt hơn có thể được mô hình hóa, và mức độ biến động ngẫu nhiên trong dữ liệu ảnh hưởng đến ước tính. Nó đóng một vai trò tương tự như chiều rộng của hạt nhân trong ước tính mật độ hạt nhân và siêu đường kính kiểm soát kích thước lá trong cây quyết định.

Cụ thể hơn một chút, chiều rộng bin là một siêu tham số kiểm soát sự đánh đổi phương sai sai lệch. Giảm chiều rộng thùng làm giảm độ lệch vì nó cho phép biểu diễn tốt hơn - biểu đồ với các thùng hẹp hơn tạo thành một lớp hàm phong phú hơn có thể xấp xỉ tốt hơn phân phối đúng / cơ bản. Tuy nhiên, nó làm tăng phương sai vì có ít điểm dữ liệu hơn để ước tính chiều cao của mỗi thùng - biểu đồ với các thùng hẹp hơn nhạy cảm hơn với biến động ngẫu nhiên trong dữ liệu và sẽ thay đổi nhiều hơn so với các bộ dữ liệu được rút ra từ cùng một phân phối cơ bản. Một chiều rộng thùng tốt cân bằng các hiệu ứng đối nghịch này để đưa ra ước tính mật độ phù hợp hơn với phân phối cơ bản.

Để biết thêm chi tiết, xem:

Scott (1979) . Trên biểu đồ tối ưu và dựa trên dữ liệu.

Shalizi (2009) . Ước tính phân phối và mật độ [ghi chú khóa học]


1

Các công cụ ước tính mật độ hạt nhân thường được hợp lý hóa như một phiên bản "liên tục" của biểu đồ. Nhiều cuốn sách về ước lượng nhân không định lượng cũng thảo luận về biểu đồ. Xem, ví dụ, chương 2 trong Racine, Jeffrey S. " Kinh tế lượng không đối xứng: Một mồi ." Nền tảng và Xu hướng® trong Kinh tế lượng 3.1 (2008): 1-88.


0

Điều này là hợp lý, bởi vì những gì bạn đang làm bằng cách đặt các mẫu vào thùng là xấp xỉ dữ liệu. Theo kinh nghiệm của tôi tùy thuộc vào mục tiêu và dữ liệu của bạn, những thùng đó có thể thay đổi mạnh mẽ và có tác động lớn đến cách xử lý dữ liệu hơn nữa. Đối với một số trường hợp, bạn có thể không cần nhiều thùng hoặc có thể bạn thiếu dữ liệu, vì vậy bạn vẫn có thể thấy đường cong chung. Mặt khác, nếu xấp xỉ quá mạnh, bạn có thể bỏ lỡ một số chi tiết, như phút và tối đa cục bộ hoặc cấu trúc. Ví dụ: bạn có thể thực hiện chức năng sau: nhập mô tả hình ảnh ở đây

Và so sánh lịch sử cho 100 và 8 thùngnhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Có một sự khác biệt rõ ràng giữa sự phức tạp của cấu trúc. Nếu chúng ta đang nói về hàm mật độ, tất nhiên bạn nên chọn tùy chọn thứ hai để có đường cong mượt mà hơn mà không có các giá trị cực đoan như trên hình ảnh đầu tiên
Thông thường tôi thích sử dụng quy tắc Freedman Nott Diaconis làm quy tắc ngón tay cái để chọn mặc định số lượng thùng và sau đó điều chỉnh nó xem xét nhiệm vụ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.