Làm thế nào để hình dung tốt nhất sự khác biệt về nhiều tỷ lệ giữa ba nhóm?


18

Tôi đang cố gắng so sánh trực quan cách ba ấn phẩm tin tức khác nhau bao gồm các chủ đề khác nhau (được xác định thông qua mô hình chủ đề LDA). Tôi có hai phương pháp liên quan để làm như vậy, nhưng đã nhận được nhiều phản hồi từ các đồng nghiệp rằng điều này không trực quan lắm. Tôi hy vọng ai đó ngoài kia có một ý tưởng tốt hơn để hình dung điều này.

Trong biểu đồ đầu tiên, tôi hiển thị tỷ lệ của từng chủ đề trong mỗi ấn phẩm, như vậy:

Tỷ lệ cho tất cả các chủ đề và ấn phẩm

Điều này khá đơn giản và trực quan với hầu hết mọi người mà tôi đã nói chuyện. Tuy nhiên, thật khó để thấy sự khác biệt giữa các ấn phẩm. Tờ báo nào nói về chủ đề nào nhiều hơn?

Để có được điều này, tôi đã vẽ biểu đồ cho sự khác biệt giữa ấn phẩm có tỷ lệ chủ đề cao nhất và cao thứ hai, được tô màu bởi ấn phẩm có mức cao nhất. Như thế này:

Sự khác biệt giữa chủ đề cao nhất thứ nhất và thứ hai

Vì vậy, ví dụ, thanh khổng lồ cho bóng đá thực sự là khoảng cách giữa al-Ahram English và Daily News Ai Cập (số 2 về độ phủ bóng đá) và nó có màu đỏ vì Al-Ahram là số 1. Tương tự, các thử nghiệm có màu xanh vì Ai Cập Độc lập có tỷ lệ cao nhất và kích thước thanh là khoảng cách giữa Ai Cập Độc lập và Tin tức hàng ngày Ai Cập (số 2 một lần nữa).

Thực tế là tôi phải giải thích rằng tất cả trong hai đoạn là một dấu hiệu khá chắc chắn rằng biểu đồ thất bại trong bài kiểm tra tự túc. Thật khó để nói những gì thực sự đang diễn ra chỉ bằng cách nhìn vào nó.

Bất kỳ đề xuất chung về làm thế nào để làm nổi bật trực quan các ấn phẩm chi phối cho mỗi chủ đề một cách trực quan hơn?

Chỉnh sửa: Dữ liệu để chơi với: Đây là dputđầu ra từ R , cũng như tệp CSV .

Chỉnh sửa 2: Đây là phiên bản sơ đồ chấm sơ bộ, với đường kính của các chấm tỷ lệ với tỷ lệ của chủ đề trong kho văn bản (đó là cách các chủ đề được sắp xếp ban đầu). Mặc dù tôi vẫn cần phải điều chỉnh nó nhiều hơn một chút, nhưng nó cảm thấy trực quan hơn rất nhiều so với những gì tôi đang làm trước đây. Cảm ơn mọi người!

Châm điểm


1
Tôi vừa thêm một số dữ liệu (cho R và CSV). Tôi vẫn chưa chọn xong màu sắc tốt (vì thế là màu đỏ / xanh Giáng sinh), mặc dù tôi biết về các vấn đề mù màu :)
Andrew

1
Việc đề cập đến "tỷ lệ" là một chút cá trích đỏ ở đây, vì dữ liệu không thực sự là tỷ lệ và quan trọng hơn, không có giải pháp đồ họa nào cho đến nay phụ thuộc vào dữ liệu là tỷ lệ. Điều này là tốt bởi vì các giải pháp có liên quan đến một loạt dữ liệu, nhưng đừng nhầm lẫn.
Nick Cox

(+1) Câu hỏi hay, bao gồm tập dữ liệu có thể tải xuống và theo dõi nhanh!
chl

Andrew, liên quan đến chỉnh sửa mới nhất của bạn, tôi nghĩ rằng nó sẽ tốt hơn với các đường lưới dọc. Họ tạo ra một mẫu kiểm tra nhưng không thêm nhiều giá trị, giả sử bạn không quan tâm đến việc đọc các giá trị chính xác từ biểu đồ.
xan

Nếu không có các đường thẳng đứng?
Andrew

Câu trả lời:


18

Cảm ơn đã làm cho dữ liệu có thể truy cập và cho một dữ liệu thú vị và thách thức đồ họa.

Đề nghị chính của tôi là một biểu đồ chấm (Cleveland).

nhập mô tả hình ảnh ở đây

Các chi tiết quan trọng nhất tôi muốn nhấn mạnh:

  1. Chồng chất ở đây cho phép và giảm bớt sự so sánh.

  2. Thứ tự của các chủ đề trong màn hình của bạn xuất hiện khá tùy ý. Không có thứ tự tự nhiên (ví dụ: thời gian, không gian, biến có thứ tự) Tôi sẽ luôn sắp xếp theo một trong các biến để cung cấp khung. Việc sử dụng có thể là một vấn đề cho dù một người đặc biệt thú vị hay quan trọng, quyết định của nhà nghiên cứu. Một khả năng khác là yêu cầu một số biện pháp về sự khác biệt giữa các giấy tờ, để các chủ đề nhận được bảo hiểm tương tự ở một đầu và những chủ đề nhận được bảo hiểm khác nhau ở đầu kia.

  3. Các dấu hiệu mở hoặc các ký hiệu điểm cho phép giải quyết chồng chéo hoặc nhận dạng tốt hơn các dấu hiệu hoặc biểu tượng đóng hoặc rắn, trong trường hợp xấu nhất che khuất hoặc che giấu lẫn nhau. (Một thay thế có thể hoạt động khá tốt ở đây là các chữ cái như A, D và I cho ba tờ báo.)

Rõ ràng có nhiều phạm vi để cải thiện thiết kế của tôi. Ví dụ, chữ có quá lớn và / hoặc quá nặng không? Mặt khác, các tiêu đề phải dễ đọc, nếu không thì biểu đồ là một thất bại.

Một số điểm nhỏ hơn, kén chọn hơn:

a. Màu đỏ và màu xanh lá cây trên biểu đồ của bạn là sự kết hợp màu sắc cần tránh. Khi các điểm đánh dấu khác nhau được sử dụng, lựa chọn màu sắc ít quan trọng hơn một chút.

b. Các đánh dấu ngang trên biểu đồ của bạn là mất tập trung. Ngược lại, các đường lưới trên tôi là cần thiết, nhưng tôi cố gắng làm cho chúng không bị phô trương bằng cách sử dụng các đường mỏng, nhẹ.

×

Các bảng xếp hạng của Cleveland nợ nhiều nhất

Cleveland, WS 1984. Phương pháp đồ họa để trình bày dữ liệu: phá vỡ quy mô đầy đủ, biểu đồ dấu chấm và ghi nhật ký nhiều bước. Thống kê người Mỹ 38: 270-80.

Cleveland, WS 1985. Các yếu tố của dữ liệu đồ thị. Monterey, CA: Wadsworth.

Cleveland, WS 1994. Các yếu tố của dữ liệu đồ thị. Hội nghị thượng đỉnh, NJ: Báo chí Hobart.

Một tiền thân (nổi tiếng hơn về mặt thống kê cho công việc khá khác biệt !!!) là

Pearson, ES 1956. Một số khía cạnh của hình học thống kê: việc sử dụng trình bày trực quan để hiểu lý thuyết và ứng dụng của thống kê toán học. Tạp chí của Hiệp hội Thống kê Hoàng gia A 119: 125-146.

Đối với những người quan tâm, biểu đồ đã được chuẩn bị trong Stata sau khi đọc trong .csv với mã

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

Đây là một lời cảm ơn tuyệt vời! Các phần trăm không may không thêm vào bất cứ thứ gì vì các giá trị được chuẩn hóa có nghĩa là từ một khối lượng lớn tài liệu (nghĩa là mỗi tài liệu trong mỗi ấn phẩm bao gồm một số kết hợp của 20 chủ đề, được phát hiện bởi LDA Chuyệnthis cho thấy các phương tiện được chuẩn hóa số nhỏ)
Andrew

Ngoài ra, các chủ đề được sắp xếp theo tỷ lệ của chúng trong kho văn bản. Quản trị Ai Cập là chủ đề xuất hiện phổ biến nhất, trong khi linh tinh là chủ đề hiếm nhất. Nhưng sử dụng thứ tự đó ở đây làm cho các dấu chấm / biểu tượng hơi khó theo dõi trực quan hơn.
Andrew

Điều đó thật tuyệt! Cảm ơn! Tôi đã cập nhật bài viết gốc để phản ánh đề xuất của bạn và thêm tỷ lệ kho văn bản.
Andrew

(+6) Câu trả lời hay! Và thật tuyệt khi có tài liệu tham khảo và mã tái sản xuất.
chl

@chl Rất cám ơn ý kiến ​​đánh giá cao và danh tiếng thêm.
Nick Cox

14

Cốt truyện chấm từ Nick Cox có lẽ là tốt nhất cho bức tranh hoàn chỉnh. Nếu bạn thực sự muốn nhấn mạnh mối quan hệ thứ nhất so với mối quan hệ thứ hai, thì đây là một sửa đổi cho biểu đồ của bạn bù đắp thanh chênh lệch với độ dài của thanh thứ hai.

nhập mô tả hình ảnh ở đây

Và đối với chế độ xem hình ảnh lớn khác, bạn có thể thử một cái gì đó như biểu đồ độ dốc hoặc biểu đồ tọa độ song song. Các dòng có thể hơi quá đông ở đây, nhưng nó có thể hoạt động nếu bạn muốn làm nổi bật trên một tập hợp con của các chủ đề.

nhập mô tả hình ảnh ở đây

Ngoài ra, bạn có thể thử helpmeviz.com hướng đến các câu hỏi viz dữ liệu rất cụ thể như thế này.


Hấp dẫn! Điểm phút: tiêu đề trục hoặc nhãn "tỷ lệ" không khớp với đơn vị%.
Nick Cox

Ồ, điều này thực sự thú vị. Tôi sẽ chơi với cái này để xem nó có thể bổ sung cho biểu đồ dấu chấm không.
Andrew

2

Bản năng đầu tiên của tôi là đề xuất một âm mưu của khảm ; nó biểu đồ mỗi danh mục phụ dưới dạng một hình chữ nhật, trong đó một thứ nguyên biểu thị tổng số cho danh mục chính và thứ nguyên khác biểu thị tỷ lệ tương ứng của danh mục phụ. Có một gói R để vẽ chúng , nhưng nó cũng khá đơn giản để thực hiện với các công cụ đồ họa cấp thấp hơn.

Tuy nhiên, các ô khảm (như biểu đồ thanh xếp chồng theo tỷ lệ phần trăm) hoạt động tốt nhất nếu chỉ có 2 hoặc 3 danh mục theo thứ nguyên mà bạn muốn so sánh tỷ lệ. Vì vậy, chúng sẽ hoạt động tốt nếu bạn muốn so sánh sự khác biệt giữa các chủ đề trong tỷ lệ bài viết trên mỗi ba tờ báo , nhưng không quá nhiều cho mục đích sử dụng của bạn, so sánh sự khác biệt giữa ba tờ báo về tỷ lệ đưa tin cho mỗi chủ đề . Một sự khác biệt tinh tế nhưng quan trọng!

Đối với những gì bạn muốn nhấn mạnh, tôi nghĩ rằng biểu đồ hiệu quả nhất là một trong những biểu đồ thanh đơn giản nhất. Nhiều người hiểu biểu đồ thanh hơn biểu đồ chấm; Nhìn thoáng qua, bạn có thể thấy rằng bạn đang so sánh số lượng có kích thước khác nhau và các giá trị bạn muốn so sánh là cạnh nhau.

Tuy nhiên, nếu bạn thực sự muốn nhấn mạnh sự khác biệt về tỷ lệ, bạn có thể tạo biểu đồ thanh được nhóm tùy chỉnh, được sửa đổi để định vị từng nhóm sao cho giá trị trung bình cho mỗi danh mục được căn chỉnh theo trục, thay vì giá trị 0:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Lưu ý rằng các thanh trong mỗi nhóm vẫn được căn chỉnh để dễ so sánh kích thước và đường cơ sở của mỗi nhóm hiện được đặt ở bên trái của trục theo giá trị trung bình của nhóm đó, trong khi các thanh chiếu sang bên phải của trục là tương đương vào biểu đồ thanh thứ hai của bạn cho thấy sự khác biệt giữa hai loại hàng đầu.

Bất kể bạn sử dụng biểu đồ thanh tiêu chuẩn được nhóm hay biểu đồ điều chỉnh bù trừ như trên, bạn vẫn có thể lấy ý tưởng từ các ô khảm và làm cho chiều rộng của mỗi thanh tỷ lệ với tổng số bài viết cho tờ báo đó (vì vậy kích thước của thanh tỷ lệ thuận với số lượng bài báo trong tờ báo đó trong thể loại đó).

Vì thống kê kiểm tra của bạn là một thuộc tính của từng so sánh , không phải là các giá trị riêng lẻ, tôi không nghĩ rằng việc chia tỷ lệ mọi điểm dữ liệu theo mức độ quan trọng là rất hữu ích. Thay vào đó, tôi sẽ có một biểu tượng bên cạnh mỗi nhóm đại diện cho ý nghĩa. Đối với xuất bản học thuật, tiêu chuẩn */ **/ ***có lợi ích của sự quen thuộc, nhưng bạn có thể sáng tạo nếu bạn muốn hiển thị đầy đủ tính liên tục của thống kê.


Ý tưởng chính ở đây là nhóm các thanh theo chiều dọc. Đó là một thiết kế được sử dụng rộng rãi, nhưng ngụ ý 60 thanh theo chiều dọc chứ không phải 20 trong bản gốc của bưu điện. Mặc dù bạn có thể điều chỉnh rõ ràng độ rộng của thanh, tôi nghĩ bạn sẽ cần nhiều không gian hơn để làm tốt điều đó trong trường hợp này, đặc biệt là khi bạn muốn thêm không gian giữa các nhóm.
Nick Cox

@NickCox Đó là một nhược điểm so với biểu đồ ban đầu nhỏ gọn hơn, mặc dù bạn có thể xoay toàn bộ biểu đồ 90 độ nếu một hình theo hướng ngang phù hợp với bố cục tổng thể của bạn.
AmeliaBR

Bạn có thể, nhưng 60 thanh cũng khó khăn từ trái sang phải và 20 nhãn hiệu như "Tình huynh đệ và chính trị Hồi giáo" sẽ vẫn có thể đọc được ...
Nick Cox

Bạn có thể có thể làm cho nó hoạt động bằng cách đặt các thanh trong một nhóm chồng lên nhau thay vì cạnh nhau. Thật khó để nói mà không nhìn thấy một mockup (và nghệ thuật ASCII của tôi không tốt trong việc truyền đạt giao diện). Nó sẽ ít trực quan hơn vì nó không phải là một cấu trúc quen thuộc và có thể dẫn đến nhầm lẫn nếu hai thanh có cùng chiều cao chính xác. Nhưng nếu sự lựa chọn là một pixel thanh rộng ...
AmeliaBR

Vì vậy, bạn đang tiếp cận gợi ý trong câu trả lời của tôi về biểu đồ dấu chấm.
Nick Cox

1

Bạn đã thử một biểu đồ bong bóng? https://code.google.com.vn/apis/ajax/playground/?type=visualization#bubble_chart

Các chủ đề riêng lẻ có thể là các vòng tròn và mỗi vòng tròn có thể là biểu đồ tỷ lệ phần trăm mà mỗi cửa hàng tin tức bao gồm chủ đề. Kích thước của vòng tròn có thể chỉ ra phạm vi bảo hiểm tương đối của chủ đề. ví dụ: nếu tổng số bài báo viết về dầu nhiều hơn văn hóa thì vòng tròn dầu có đường kính lớn hơn.


[X,Y]

1
@NickStauner Tôi không thấy câu hỏi được chỉnh sửa với tập dữ liệu khi tôi trả lời ban đầu. Các tọa độ sẽ không biểu thị nhiều nhưng các ấn phẩm số. Các vòng tròn có thể được nhóm theo chủ đề hoặc theo kích thước đường kính. Tôi không biết tại sao tỷ lệ phần trăm được sử dụng ở nơi đầu tiên vì số lượng rất nhỏ.
rocinante
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.