Một số lựa chọn thay thế cho một boxplot là gì?


20

Tôi đang làm việc để tạo một trang web, hiển thị dữ liệu điều tra dân số cho người dùng đã chọn Đa giác & muốn hiển thị bằng biểu đồ phân phối các tham số khác nhau (một biểu đồ cho mỗi tham số).

Dữ liệu thường có các thuộc tính sau:

  1. Cỡ mẫu có xu hướng lớn (khoảng 10.000 điểm dữ liệu)
  2. Phạm vi trong các giá trị có xu hướng rất lớn (ví dụ: dân số tối thiểu có thể dưới 100 và tối đa có thể là khoảng 500.000)
  3. q1 thường gần với mức tối thiểu (giả sử 200) trong khi q2 & q3 sẽ nằm trong khoảng 10.000
  4. Nó không giống bất cứ thứ gì như một bản phân phối bình thường

Tôi không phải là một nhà thống kê và do đó mô tả của tôi có thể không chính xác rõ ràng.

Tôi muốn hiển thị phân phối này trên một biểu đồ, sẽ được nhìn thấy bởi các công dân (giáo dân, nếu bạn muốn).

Tôi thích nhất là sử dụng biểu đồ, nhưng điều đó là không thể do phạm vi giá trị lớn, do đó việc tạo ra các thùng không thực sự dễ dàng & thẳng tiến.

Từ những gì tôi biết về thống kê, một âm mưu hộp là thứ thường được sử dụng để hiển thị loại dữ liệu này, nhưng tôi cảm thấy rằng đối với một giáo dân, việc giải mã âm mưu của Hộp là không dễ dàng.

Các tùy chọn của tôi để hiển thị dữ liệu này một cách dễ hiểu là gì?


chính xác những gì bạn đang hiển thị? Tôi không rõ loại dữ liệu mà một điểm dữ liệu của bạn thể hiện là gì.
mpiktas

1
Làm thế nào về một âm mưu mật độ hạt nhân? statmethods.net/graphs/d mật.html
Roman Luštrik

@mpiktas: Dữ liệu của tôi là dữ liệu Điều tra dân số cho các làng. Trang web của tôi sẽ cho phép người dùng chọn một khu vực trên bản đồ và sau đó sẽ tìm thấy tất cả các làng trong khu vực đó. Dữ liệu điều tra dân số cho một làng bao gồm nhiều giá trị khác nhau như: Dân số nam, Dân số nữ, Thu nhập hộ gia đình trung bình, v.v. cho làng đó. Tôi hy vọng hiển thị phân phối dữ liệu cho một giá trị cụ thể (ví dụ: Tổng dân số) cho tất cả các làng nằm trong khu vực do người dùng chọn.
Devdatta Tengshe

Câu trả lời:


13

Một boxplot không phức tạp. Rốt cuộc, bạn chỉ cần tính toán ba phần tư , và min và max xác định phạm vi; một sự tinh tế phát sinh khi chúng ta muốn vẽ râu và các phương pháp khác nhau đã được đề xuất. Chẳng hạn, trong một giá trị hộp Tukey bên ngoài 1,5 lần, phần tư giữa phần tư thứ nhất hoặc phần thứ ba sẽ được coi là ngoại lệ và được hiển thị dưới dạng các điểm đơn giản. Xem thêm Phương pháp trình bày thông tin thống kê: Hộp đồ họa để có cái nhìn tổng quan tốt , của Kristin Potter. Phần mềm R thực hiện quy tắc hơi khác một chút nhưng mã nguồn có sẵn nếu bạn muốn nghiên cứu nó (xem phần boxplot()boxplot.stats()chức năng). Tuy nhiên, nó không hữu ích lắm khi sự quan tâm trong việc xác định các ngoại lệ từ một phân phối rất sai lệch (nhưng hãy xem, Một boxplot được điều chỉnh cho các bản phân phối bị lệch , bởi Hubert và Vandervieren, CSDA 2008 52 (12)).

Đối với vấn đề trực quan hóa trực tuyến, tôi khuyên bạn nên xem Protovis , một hộp công cụ js không có plugin để hiển thị web tương tác. Các ví dụ trang có hình ảnh minh họa của những gì có thể đạt được với nó, trong rất ít dòng.


3
Tôi làm việc trong nghiên cứu sinh học. Tôi biết một số đồng nghiệp (ý tôi là, những người có bằng tiến sĩ), những người không thể thực sự nắm bắt được các ô vuông. Tôi sẽ không sử dụng chúng để nhắm mục tiêu một đối tượng chung.
nico

1
@nico Đó là một điểm công bằng. Nhưng, đây không phải là lý do để không sử dụng tóm tắt đồ họa hiệu quả. Một minh họa sơ đồ về những gì một boxplot thực sự có thể giúp người đọc.
chl

1
nó thực sự phụ thuộc vào đối tượng mục tiêu là gì và mục tiêu của trang web là gì. Giải thích về boxplots chắc chắn sẽ giúp ích, nhưng vẫn có một số người đấu tranh rất nhiều với khái niệm phân phối.
nico

@nico Vâng, tôi đồng ý. Mặc dù boxplot không được đề cập trong A Tour thông qua Sở thú trực quan - nhưng chúng dành cho các tập dữ liệu lớn và phức tạp, tôi chỉ đơn giản thích nó và tôi rất tiếc khi thấy rằng nó không được sử dụng nhiều trong khoa học thực nghiệm. Xếp chồng dữ liệu thô là một cách giúp người đọc hình dung được sự phân phối.
chl

1
Tôi biết! Tôi luôn cố gắng "chuyển đổi" các đồng nghiệp của mình thành boxplots, ít nhất là khi viết bài, thuyết trình, v.v., nhưng đôi khi là vậy!
nico


7

Tôi khuyên bạn nên kiên trì với biểu đồ. Chúng được hiểu rộng rãi hơn nhiều so với các lựa chọn thay thế. Sử dụng thang đo log để đối phó với phạm vi giá trị lớn. Dưới đây là một ví dụ tôi đã thực hiện trong vài phút ở Stata: Biểu đồ với thang đo log trên trục giá trị
Tôi thừa nhận rằng các nhãn số trục x không hoàn toàn đơn giản hoặc tự động, nhưng khi bạn xây dựng một trang web, tôi chắc chắn rằng kỹ năng lập trình của bạn phụ thuộc vào thử thách!


Điểm tốt. Biểu đồ (hoặc biểu đồ mật độ với thí nghiệm với băng thông) là một giải pháp tuyệt vời ở đây.
suncoolsu

Bạn hoàn toàn đúng, rằng Biểu đồ là cách dễ hiểu nhất để hiển thị phân phối. Tôi sẽ cố gắng tạo biểu đồ với cả hai trục theo tỷ lệ log.
Devdatta Tengshe

2
Tôi chỉ đề xuất sử dụng thang đo log cho trục x. Tôi không nghĩ thang đo log cho trục tần số sẽ là một ý tưởng hay, vì khi đó, khu vực bóng mờ của mỗi thanh của biểu đồ sẽ không tỷ lệ thuận với số lượng quan sát.
vào

5

Đây là một hàm MATLAB để vẽ nhiều biểu đồ song song trong 2D dưới dạng thay thế cho biểu đồ hộp. Xem hình trên đầu. Và đây là một cái khác

Dải mật độ là một thay thế khác cho âm mưu hộp. Đó là một dải đơn sắc mờ có độ tối tại một điểm tỷ lệ thuận với mật độ xác suất của đại lượng tại điểm đó. Đây là một triển khai R của dải mật độ


1
(+1) Quên về điều đó. Nó có thể có ích.
chl

1
Chỉ cần tìm thấy một phiên bản PDF chưa hoàn chỉnh của Hiển thị không chắc chắn với Shading .
chl

@chl: liên kết đó không hoạt động
kjetil b halvorsen

4

x%x=0,10,20,...,100


3
Trích dẫn một người bạn của tôi: nếu bạn muốn "giấu" một cái gì đó trong một tờ giấy, hãy đặt nó vào văn bản thay vì trong một hình. Nếu bạn muốn chắc chắn rằng không ai từng đọc nó hãy đặt nó vào một cái bàn! ;) Tất nhiên chỉ nói đùa, nhưng có một trang web với bản đồ tương tác để người dùng nhấp vào, v.v ... tất cả điều đó để có được một bảng ... thật đáng thất vọng!
nico

@nico, yeah nhưng đôi khi các bảng có nhiều thông tin hơn biểu đồ. Tôi ví dụ thích bảng thay vì một biểu đồ xấu. Trong trường hợp này, bảng vẫn có thể được biểu thị bằng biểu đồ và tôi đã đề xuất các lượng tử vì chúng không có vấn đề với các ngoại lệ.
mpiktas

Đó là những gì tôi hiện đang làm (Hiển thị các deciles trên biểu đồ), nhưng sau khi hiển thị nó cho một số đối tượng mục tiêu của chúng tôi, chúng tôi đã nhận được phản hồi, rằng các biểu đồ không dễ hiểu.
Devdatta Tengshe

2

Nếu bạn đang nhắm mục tiêu vào dân số chung (tức là đối tượng không am hiểu về thống kê), bạn nên tập trung vào kẹo mắt hơn là độ chính xác thống kê.

Quên về boxplots, hãy để một mình âm mưu violin (cá nhân tôi thấy chúng rất khó đọc)! Nếu bạn hỏi một người đàn ông đường phố trung bình là một lượng tử là gì, thì bạn hầu như sẽ nhận được một sự im lặng mở to mắt ...

Bạn nên sử dụng barplots, biểu đồ bong bóng, có thể một số biểu đồ hình tròn (brrrr). Hãy quên các thanh lỗi (mặc dù tôi sẽ đặt SD vào văn bản ở đâu đó nếu có).

Sử dụng màu sắc, hình dạng, đường kẻ dày, 3D. Bạn nên làm cho mỗi biểu đồ trở nên độc đáo và dễ hiểu ngay lập tức, thậm chí không cần phải đọc tất cả các truyền thuyết / trục, v.v ... Hãy sử dụng thông minh các bản đồ bằng cách tô màu chúng.

Thông tin là đẹp là một nguồn rất tốt để có được ý tưởng. Nhìn vào biểu đồ này, ví dụ: Caffeine và Calories : bất cứ ai cũng có thể hiểu nó, và nó làm hài lòng mắt.

Và, tất nhiên, có một cái nhìn về công việc của Edward Tufte.


Lưu ý tôi đã không đề nghị anh ta sử dụng các ô vĩ cầm cho các ứng dụng của mình, nhưng một biểu đồ với các thùng cách nhau logarit. Âm mưu violin là câu trả lời cho câu hỏi trong tiêu đề (khá khác với câu hỏi trong chính bài đăng).
Dikran Marsupial

3
Bạn có thể sẽ thích Nhiều mắt , dataviz , datavisualization.chIdeas2evidence , để đặt tên cho một số.
chl

2

Tôi thích bản đồ violon hơn , vì điều này đưa ra ý tưởng về hình dạng của bản phân phối. Tuy nhiên, nếu phạm vi giá trị lớn là vấn đề, thì có lẽ tốt nhất là vẽ biểu đồ của dữ liệu thay vì giá trị thô, sau đó sẽ chọn kích thước hộp cho biểu đồ, v.v. Vì màn hình hiển thị dành cho laymen, don không đề cập đến nhật ký và đánh dấu trục 10, 100, 1000, 10000, 100000, 1000000, v.v.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.