Biểu đồ với thùng đồng nhất và không đồng nhất


10

Câu hỏi này mô tả sự khác biệt cơ bản giữa biểu đồ đồng nhất và biểu đồ không hình dạng. Và câu hỏi này thảo luận về quy tắc ngón tay cái để chọn số lượng thùng của biểu đồ thống nhất tối ưu hóa (theo nghĩa nào đó) mức độ biểu đồ biểu thị phân phối mà từ đó các mẫu dữ liệu được rút ra.

Tôi dường như không thể tìm thấy cùng một loại thảo luận "tối ưu" về biểu đồ đồng nhất và biểu đồ không đồng nhất. Tôi có một phân phối không theo tỷ lệ phân cụm với các ngoại lệ ở xa nên một biểu đồ không đồng nhất theo trực giác có ý nghĩa hơn. Nhưng tôi rất thích xem một phân tích chính xác hơn về hai câu hỏi sau:

  1. Khi nào biểu đồ bin đồng nhất tốt hơn biểu đồ bin không đồng nhất?
  2. Một số lượng tốt các thùng cho một biểu đồ không đồng đều là gì?

Đối với biểu đồ không đồng nhất, tôi được coi là trường hợp đơn giản nhất khi chúng tôi lấy mẫu từ một phân phối không xác định, sắp xếp các giá trị và phân tách chúng thành các thùng sao cho mỗi thùng có trong số này các mẫu (giả sử rằng cho một số nguyên lớn ). Phạm vi được hình thành bằng cách lấy điểm giữa giữa của các giá trị trong bin i\ min của các giá trị trong bin i + 1 . Đâyđây là các liên kết mô tả các loại biểu đồ không đồng nhất.nnkknnckcmaximini+1


Không có đủ thông tin để trả lời (2). Các điều kiện về sự không đồng đều là gì? Bạn có thể chọn bất kỳ thùng nào bạn thích, hoặc có một số hạn chế? Bạn muốn tối ưu hóa cái gì? ví dụ: bạn có muốn lỗi bình phương tích hợp trung bình tối thiểu giữa và không? Hay cái gì khác? ff^
Glen_b -Reinstate Monica

@Glen_b Tôi mô tả chi tiết hơn một chút về loại biểu đồ tôi đang xem xét trong trường hợp bin không đồng nhất.
Alan Turing

Kiểm tra chỉnh sửa của bạn. Ý của bạn là "n = cm" chứ không phải là "cn"? Ngoài ra còn có một lỗi đánh máy sau này.
Glen_b -Reinstate Monica

Bạn đang cố gắng để truyền đạt một cái gì đó như thế này ?
Glen_b -Reinstate Monica

Cũng xem cuộc thảo luận về sự thỏa hiệp giữa điều đó và biểu đồ thông thường
Glen_b -Reinstate Monica

Câu trả lời:


7

Khi nào biểu đồ bin đồng nhất tốt hơn biểu đồ bin không đồng nhất?

Điều này đòi hỏi một số loại nhận dạng về những gì chúng tôi muốn tìm cách tối ưu hóa; Nhiều người cố gắng tối ưu hóa lỗi bình phương trung bình tích hợp trung bình, nhưng trong nhiều trường hợp tôi nghĩ rằng phần nào bỏ lỡ điểm thực hiện biểu đồ; nó thường (trong mắt tôi) 'oversmooths'; đối với một công cụ khám phá như biểu đồ, tôi có thể chịu đựng được nhiều sự thô ráp hơn, vì chính sự thô ráp đó mang lại cho tôi cảm giác về mức độ mà tôi nên "làm mịn" bằng mắt; Tôi có xu hướng ít nhất gấp đôi số thùng thông thường từ các quy tắc như vậy, đôi khi là một thỏa thuận tốt hơn. Tôi có xu hướng đồng ý với Andrew Gelman về điều này; thực sự nếu sự quan tâm của tôi thực sự có được một AIMSE tốt, có lẽ tôi không nên xem xét biểu đồ nào.

Vì vậy, chúng tôi cần một tiêu chí.

Hãy để tôi bắt đầu bằng cách thảo luận về một số tùy chọn của biểu đồ khu vực không bằng nhau:

Có một số cách tiếp cận làm mịn hơn (ít hơn, thùng rộng hơn) ở các khu vực có mật độ thấp hơn và có các thùng hẹp hơn nơi mật độ cao hơn - chẳng hạn như biểu đồ "diện tích bằng nhau" hoặc "số lượng bằng nhau". Câu hỏi chỉnh sửa của bạn dường như xem xét khả năng đếm bằng nhau.

Các histogramchức năng trong R của latticegói có thể sản xuất khoảng thanh bình đẳng khu vực:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

so sánh chiều rộng bằng nhau và diện tích bằng nhau

Việc nhúng ngay bên phải thùng ngoài cùng bên trái thậm chí còn rõ ràng hơn nếu bạn lấy rễ thứ tư; với các thùng có chiều rộng bằng nhau, bạn không thể nhìn thấy nó trừ khi bạn sử dụng số lượng thùng gấp 15 đến 20 lần, và sau đó đuôi bên phải trông rất tệ.

Có một biểu đồ đếm bằng nhau ở đây , với mã R, sử dụng các lượng tử mẫu để tìm các ngắt.

Ví dụ: trên cùng một dữ liệu như trên, đây là 6 thùng với (hy vọng) 8 quan sát mỗi cái:

biểu đồ cân bằng

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Câu hỏi CV này chỉ ra một bài báo của Denby và Mallows một phiên bản có thể tải xuống từ đây mô tả sự thỏa hiệp giữa các thùng có chiều rộng bằng nhau và các thùng có diện tích bằng nhau.

Nó cũng giải quyết các câu hỏi bạn đã ở một mức độ nào đó.

Có lẽ bạn có thể coi vấn đề này là một trong việc xác định các ngắt trong một quá trình Poisson liên tục từng phần. Điều đó sẽ dẫn đến công việc như thế này . Ngoài ra còn có khả năng liên quan đến việc xem xét các thuật toán phân cụm / phân loại trên số lượng Poisson (giả sử), một số thuật toán sẽ mang lại một số thùng. Phân cụm đã được sử dụng trên biểu đồ 2D ( hình ảnh , có hiệu lực) để xác định các khu vực tương đối đồng nhất.

-

Nếu chúng ta có một biểu đồ đếm bằng nhau và một số tiêu chí để tối ưu hóa, thì chúng ta có thể thử một phạm vi đếm trên mỗi thùng và đánh giá tiêu chí theo một cách nào đó. Bài báo Wand được đề cập ở đây [ giấy , hoặc giấy làm việc pdf ] và một số tài liệu tham khảo của nó (ví dụ như các bài báo của Sheather et al) phác thảo "cắm" ước tính chiều rộng thùng dựa trên ý tưởng làm mịn hạt nhân để tối ưu hóa AIMSE; nói rộng ra rằng cách tiếp cận đó có thể thích ứng với tình huống này, mặc dù tôi không nhớ là đã thấy nó được thực hiện.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.