Biểu đồ BBC này (mối tương quan Brexit giữa giáo dục và kết quả) nên được vẽ như thế nào?


8

BBC đã phân tích thêm dữ liệu trưng cầu dân ý về Brexit; biểu đồ đầu tiên trong bài viết của họ khiến tôi chú ý:

nhập mô tả hình ảnh ở đây

Có vẻ lạ khi chia trục x ở mức 50%. Chắc chắn điều này nên được phân chia ở vị trí trung bình của dữ liệu? (Hoặc trung bình nếu dữ liệu được phân phối bình thường; nhưng nheo mắt nhìn vào nó, điều đó dường như không xảy ra ở đây.)

(Họ chưa công bố dữ liệu của mình, nhưng google nhanh chóng cho thấy sinh viên tốt nghiệp chiếm khoảng 25% dân số trưởng thành và điều đó phù hợp với biểu đồ bắt mắt, vì vậy tôi sẽ làm theo.

Nhưng điều đó khiến tôi nghĩ cách vẽ biểu đồ này một cách khách quan nhất có thể. Sẽ tốt hơn nếu giữ tuyến tính trục x và có hai hộp bên phải rộng gấp ba lần? Hoặc giữ các hộp có cùng kích thước, squish và kéo dài trục x, sao cho mỗi khoảng pixel N bao gồm cùng một số điểm dữ liệu? Hay cái gì khác?


5
Tôi thấy không có vấn đề thực sự ở đây. Rời khỏi> Vẫn còn rất thích hợp để xem xét kết quả. Nhiều sinh viên tốt nghiệp hơn không phải là dễ hiểu. Nếu một ngưỡng khác đã được chọn cho cái sau, một số độc giả khác có thể đã bị nhầm lẫn. Trái với một câu trả lời, lý do không có điểm dữ liệu nào được hiển thị trong một góc phần tư là không có điểm nào thuộc về đó; có gì sai ở đó? Người ta cho rằng tất cả các bóng mờ làm mất tập trung, nhưng có một nỗ lực để hướng dẫn giải thích.
Nick Cox

4
Lưu ý rằng, có thể gây ngạc nhiên lớn cho bất kỳ ai có đầu óc thống kê, các âm mưu phân tán được coi là rộng rãi trong báo chí dữ liệu và các lĩnh vực liên quan là quá khó đối với khán giả nói chung!
Nick Cox

2
Cốt truyện này thường được thực hiện tốt, như một số đã lưu ý. Sự chỉ trích thực sự duy nhất gây chú ý ngay lập tức là sự quá mức của các điểm ở trung tâm: điều đó gây khó khăn cho việc đánh giá số điểm ở đó, khiến cho cốt truyện trở nên ít hữu ích hơn so với có thể.
whuber

Câu trả lời:


3

Tôi nghĩ rằng phiên bản FT của dữ liệu tương tự này đóng vai trò là một câu trả lời đúng đắn về cách trình bày dữ liệu một cách công bằng.

nhập mô tả hình ảnh ở đây

Thay vì tuyệt đối trên thang điểm 0 - 100, nó phóng to để tập trung vào thay đổi. Các dòng giúp xác minh mô hình khó đánh giá trên các điểm một mình vì tất cả các quá mức. (Có bao nhiêu trong số 1070 phường bạn có thể tạo ra trong bản gốc?)


1
Cảm ơn. Tôi thích ý tưởng này: khi hầu hết các mục trong một phần của biểu đồ đều có điểm chung (khu vực địa lý, ở đây), hãy làm nổi bật tất cả các mục có tính năng đó. (Các đường xu hướng cũng hoạt động rất tốt trong trường hợp này.)
Darren Cook

10

Tôi đồng ý rằng tô màu cho góc phần tư màu hồng phần lớn là mỹ phẩm, nhưng nhìn chung tôi xem đây là một âm mưu thông tin rõ ràng. Thông điệp ngay lập tức rõ ràng và không gây hiểu lầm. BBC đã vẽ các điểm dữ liệu thực tế. Họ đã không thao tác các trục x hoặc y. Chú thích trên cốt truyện là chính xác và không được nêu quá mức. Họ đã không thêm các đường xu hướng giả hoặc bất kỳ giải thích không cần thiết nào khác. So với hầu hết các số liệu dữ liệu được trình bày trên các phương tiện truyền thông, cốt truyện này là tuyệt vời - đó là một ví dụ khá hay về việc để dữ liệu tự nói lên. Nói tóm lại, tôi nghĩ bạn đang nghĩ quá nhiều. Tôi không nghi ngờ rằng bạn có thể tìm thấy một số cách để cải thiện cốt truyện, nhưng đơn giản thường là tốt nhất.


4
+1 kể từ khi tôi đồng ý. Tôi muốn thêm rằng việc chia tách ở mức trung bình hoặc trung bình không phải là tùy ý hơn 50%, nó chỉ phụ thuộc vào chính xác những gì bạn muốn hiển thị.
Tim

4

Tôi đồng ý rằng đồ thị là gây hiểu nhầm trong một cảm giác rằng nó ngụ ý để chứng minh rằng không có điểm dữ liệu trong góc phần tư khoát mô tả như nghỉ cao bỏ phiếu%,% cao của sinh viên tốt nghiệp. Những gì cao và thấp trở nên liên quan đến giới hạn trục, không phải dữ liệu thực tế. Mặc dù về mặt lý thuyết có thể có một phường với dân số được giáo dục đại học 100%, nhưng phường đó không tồn tại. Bạn không cần phải phát minh các điểm dữ liệu để tạo ra một biểu đồ sai lệch: trục bị hỏng hiển thị thay đổi phóng đại là một ví dụ không quá giống với biểu đồ này.

Một cách khách quan hơn để trực quan hóa dữ liệu này sẽ là đặt giới hạn trục biểu đồ phân tán ở mức tối đa / phút của dữ liệu và sau đó chia biểu đồ thành các góc phần tư có diện tích bằng nhau.

Lý do tôi sẽ cho diện tích các góc phần tư bằng nhau là để các góc phần tư hiển thị mối quan hệ tuyến tính tương đương giữa các biến. Các mô tả phân loại của các góc phần tư, "cao" và "thấp" được coi là tương đương vì vậy các khu vực cũng nên như vậy.

Thay vào đó, nếu chúng ta muốn sử dụng góc phần tư như một cách khác để mô tả định lượng dữ liệu, chúng ta có thể đặt đường viền góc phần tư ở mức trung bình của mỗi biến như được hiển thị trong Trực quan hóa dữ liệu với các ví dụ R: 100 (có sẵn để xem trước trên Google Sách, p283,286).

Để thêm một lớp phân tích khác vào trực quan hóa biểu đồ phân tán, chúng ta có thể sử dụng màu sắc và kích thước của các chấm. Ví dụ, màu sắc có thể được sử dụng để tách các thị trấn đại học khỏi phần còn lại, hiển thị tỷ lệ cử tri đi theo độ dốc hoặc làm nổi bật kết quả Bầu cử chung cho các phường đó. Tôi không chắc liệu kích thước có hiệu quả với nhiều điểm dữ liệu hay không, nhưng bạn có khả năng điều tra các dải dân số khác nhau, chẳng hạn như 65+ và cách chúng được thể hiện trong dữ liệu.

Trong tâm trí tôi cũng có hai lưu ý quan trọng đáng ghi nhớ khi nhìn vào biểu đồ này: thứ nhất, nó tính tất cả sinh viên tốt nghiệp, bất kể họ có bỏ phiếu trong cuộc trưng cầu dân ý hay không, và thứ hai, bao gồm cả sinh viên tốt nghiệp thường trú với hộ chiếu EU không thể bỏ phiếu trong cuộc trưng cầu dân ý (giả sử dữ liệu nguồn là dựa trên điều tra dân số).


Cảm ơn. Sử dụng tối đa và tối thiểu sẽ không còn xa ở đây, nhưng với phân phối dài hạn hoặc một ngoại lệ gây phiền nhiễu (ví dụ bạn có thể tưởng tượng một thị trấn đại học có thể có một phường đạt 80 +%), nó vẫn có thể bị biến dạng. Bạn vẫn sẽ luôn đi với min / max rồi góc phần tư của diện tích chẵn?
Darren Cook

Tôi đã chỉnh sửa câu trả lời của mình để giải thích lý do tại sao tôi sử dụng ngay cả các khu vực trong trường hợp này. Nếu phân phối có đuôi dài, có lẽ sẽ không phù hợp khi sử dụng góc phần tư để phân loại kết quả theo cách này.
gherka

2

Tôi đồng ý, rất sai lệch. Tôi sẽ loại bỏ tất cả các nền màu cùng nhau.

Nếu bạn khăng khăng tô màu nó, có lẽ một độ dốc tương ứng với mật độ dân số? Đây là, màu nền trở nên tối hơn khi nhiều phường nằm trong danh mục "có giáo dục so với nghỉ phép"

Chắc chắn có một xu hướng, tôi không nghĩ ai sẽ tranh cãi về điều đó - có lẽ tác giả nên gắn bó với một xu hướng nào đó?


3
Tôi đồng ý rằng một đường xu hướng (có thể là đường cong) là một bổ sung tự nhiên cho đầu óc thống kê, nhưng đây là một biểu đồ trong các phương tiện truyền thông đại chúng.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.