Khi nào biểu đồ bin đồng nhất tốt hơn biểu đồ bin không đồng nhất?
Điều này đòi hỏi một số loại nhận dạng về những gì chúng tôi muốn tìm cách tối ưu hóa; Nhiều người cố gắng tối ưu hóa lỗi bình phương trung bình tích hợp trung bình, nhưng trong nhiều trường hợp tôi nghĩ rằng phần nào bỏ lỡ điểm thực hiện biểu đồ; nó thường (trong mắt tôi) 'oversmooths'; đối với một công cụ khám phá như biểu đồ, tôi có thể chịu đựng được nhiều sự thô ráp hơn, vì chính sự thô ráp đó mang lại cho tôi cảm giác về mức độ mà tôi nên "làm mịn" bằng mắt; Tôi có xu hướng ít nhất gấp đôi số thùng thông thường từ các quy tắc như vậy, đôi khi là một thỏa thuận tốt hơn. Tôi có xu hướng đồng ý với Andrew Gelman về điều này; thực sự nếu sự quan tâm của tôi thực sự có được một AIMSE tốt, có lẽ tôi không nên xem xét biểu đồ nào.
Vì vậy, chúng tôi cần một tiêu chí.
Hãy để tôi bắt đầu bằng cách thảo luận về một số tùy chọn của biểu đồ khu vực không bằng nhau:
Có một số cách tiếp cận làm mịn hơn (ít hơn, thùng rộng hơn) ở các khu vực có mật độ thấp hơn và có các thùng hẹp hơn nơi mật độ cao hơn - chẳng hạn như biểu đồ "diện tích bằng nhau" hoặc "số lượng bằng nhau". Câu hỏi chỉnh sửa của bạn dường như xem xét khả năng đếm bằng nhau.
Các histogram
chức năng trong R của lattice
gói có thể sản xuất khoảng thanh bình đẳng khu vực:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Việc nhúng ngay bên phải thùng ngoài cùng bên trái thậm chí còn rõ ràng hơn nếu bạn lấy rễ thứ tư; với các thùng có chiều rộng bằng nhau, bạn không thể nhìn thấy nó trừ khi bạn sử dụng số lượng thùng gấp 15 đến 20 lần, và sau đó đuôi bên phải trông rất tệ.
Có một biểu đồ đếm bằng nhau ở đây , với mã R, sử dụng các lượng tử mẫu để tìm các ngắt.
Ví dụ: trên cùng một dữ liệu như trên, đây là 6 thùng với (hy vọng) 8 quan sát mỗi cái:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Câu hỏi CV này chỉ ra một bài báo của Denby và Mallows một phiên bản có thể tải xuống từ đây mô tả sự thỏa hiệp giữa các thùng có chiều rộng bằng nhau và các thùng có diện tích bằng nhau.
Nó cũng giải quyết các câu hỏi bạn đã ở một mức độ nào đó.
Có lẽ bạn có thể coi vấn đề này là một trong việc xác định các ngắt trong một quá trình Poisson liên tục từng phần. Điều đó sẽ dẫn đến công việc như thế này . Ngoài ra còn có khả năng liên quan đến việc xem xét các thuật toán phân cụm / phân loại trên số lượng Poisson (giả sử), một số thuật toán sẽ mang lại một số thùng. Phân cụm đã được sử dụng trên biểu đồ 2D ( hình ảnh , có hiệu lực) để xác định các khu vực tương đối đồng nhất.
-
Nếu chúng ta có một biểu đồ đếm bằng nhau và một số tiêu chí để tối ưu hóa, thì chúng ta có thể thử một phạm vi đếm trên mỗi thùng và đánh giá tiêu chí theo một cách nào đó. Bài báo Wand được đề cập ở đây [ giấy , hoặc giấy làm việc pdf ] và một số tài liệu tham khảo của nó (ví dụ như các bài báo của Sheather et al) phác thảo "cắm" ước tính chiều rộng thùng dựa trên ý tưởng làm mịn hạt nhân để tối ưu hóa AIMSE; nói rộng ra rằng cách tiếp cận đó có thể thích ứng với tình huống này, mặc dù tôi không nhớ là đã thấy nó được thực hiện.