Đó là hình dung tốt nhất cho các bảng dự phòng?


22

Đó là âm mưu tốt nhất, từ quan điểm thống kê, để hiển thị một bảng dự phòng , thường được phân tích bằng kiểm tra chi bình phương? Đây có phải là một barplot được né tránh, barplot xếp chồng lên nhau, bản đồ nhiệt, biểu đồ đường viền, biểu đồ phân tán jitter, biểu đồ nhiều dòng hoặc một cái gì khác? Nên hiển thị giá trị tuyệt đối hoặc tỷ lệ phần trăm?

Chỉnh sửa: Hoặc như @forecaster gợi ý trong các nhận xét, bảng số tự nó là một cốt truyện đơn giản và cần có đủ.


4
Đôi khi bảng dữ liệu là phương pháp trực quan tốt nhất so với các ô. Bảng dự phòng là một ví dụ cổ điển về điều đó.
dự báo

1
Điểm quan trọng, mặc dù tôi không đồng ý rằng nó luôn là lựa chọn tốt nhất.
rnso

1
Đó là lý do tại sao tôi nói "đôi khi". Tôi muốn giới thiệu, Stephen Few's Chỉ cho tôi các số có toàn bộ phần dành riêng cho các bảng.
dự báo

1
tốt, phương pháp tốt nhất phụ thuộc vào những gì bạn muốn hiển thị, bảng lớn như thế nào, không có một số chi tiết cụ thể này là rộng!
kjetil b halvorsen

3
Hầu hết các số liệu thống kê.stackexchange.com/questions / 56322 / dường như thích hợp ở đây.
Nick Cox

Câu trả lời:


9

Ở đây sẽ không có giải pháp một kích cỡ phù hợp cho tất cả. Nếu bạn có một bảng rất đơn giản (ví dụ: ), chỉ cần trình bày bảng có lẽ là tốt nhất. Nếu bạn muốn một con số thực tế, các ô khảm (như @xan gợi ý) có lẽ là một nơi tốt đẹp để bắt đầu. Có một số tùy chọn khác tương tự với các ô khảm, bao gồm các ô sàng, các ô kết hợp và các ô áp suất động (xem câu hỏi của tôi ở đây: Thay thế cho các ô sàng / khảm cho các bảng dự phòng ); Cuốn sách của Michael Friendly, Trực quan hóa dữ liệu phân loại , sẽ là một tài nguyên tốt (dựa trên SAS) cho chủ đề này và gói vcd là một tài nguyên tốt để thực hiện những ý tưởng đó trong R. 2×2

Tuy nhiên, theo bảng có số lượng hàng và cột lớn hơn, chúng trở nên khó sử dụng hơn, theo ý kiến ​​của tôi. Một loại tùy chọn trực quan khác là thực hiện / vẽ một phân tích tương ứng . Phân tích tương ứng tương tự như chạy phân tích thành phần chính trên cả hàng và cột của bảng dự phòng. Sau đó cả hai được vẽ cùng với một biplot. Đây là một ví dụ dựa trên R sử dụng dữ liệu từ câu trả lời của @ xan:

library(ca)
tab = as.table(rbind(c(28, 4,  0, 56),
                     c(38, 5,  9, 10),
                     c( 6, 6, 14, 13) ))
names(dimnames(tab)) = c("activity", "period")
rownames(tab)        = c("feed", "social", "travel")
colnames(tab)        = c("morning", "noon", "afternoon", "evening")
tab
#         period
# activity morning noon afternoon evening
#   feed        28    4         0      56
#   social      38    5         9      10
#   travel       6    6        14      13
plot(ca(tab))

nhập mô tả hình ảnh ở đây

Để diễn giải âm mưu này, hai điểm cùng loại càng gần nhau thì hai cấu hình hàng / cột càng giống nhau. Và càng gần hai điểm của các loại khác nhau, khối lượng xác suất của chúng càng nằm trong ô biểu thị giao điểm của chúng.

Trong R có gói ca ; họa tiết này ( pdf ) cũng có thể hữu ích.


Rất hữu dụng. Rõ ràng nó thất bại với các giá trị nhỏ, ví dụ: tt = with (mtcars, bảng (yếu tố (bánh răng), yếu tố (vs))); cốt truyện (ca (tt)); Lỗi trong x [, dim]: đăng ký ngoài giới hạn
rnso

Đó là bởi vì một trong những yếu tố (nghĩa là factor(vs)) chỉ có hai cấp độ; bạn cần ít nhất ba. Hãy thử ttt = with(mtcars, table(factor(gear), factor(cyl))); plot(ca(ttt)).
gung - Phục hồi Monica

Hiển thị rất tốt các mối quan hệ giữa các yếu tố khác nhau.
vào

Hoặc bạn có thể hiển thị bảng sau khi sắp xếp lại các hàng và cột theo thứ tự các điểm phân tích tương ứng.
kjetil b halvorsen

Ý tưởng thú vị, @kjetilbhalvorsen. Tôi không chắc làm thế nào để lấy nó từ cađối tượng, vì vậy tôi đã mã hóa nó từ đầu. Trừ khi tôi mắc lỗi, bạn sẽ sắp xếp lại các hàng c(1,3,2)& cột c(4,1,3,2). Làm xong việc đó, tôi không chắc mình sẽ thấy gì ở đây. Bạn đang nghĩ gì vậy?
gung - Phục hồi Monica

11

Các hình ảnh khác nhau sẽ tốt hơn trong việc làm nổi bật các tính năng khác nhau, nhưng các ô khảm hoạt động tốt cho một cái nhìn tổng quát (kiểm tra xem có gì nổi bật không). Có lẽ đó là những gì bạn có nghĩa là bởi âm mưu tránh né. Giống như hầu hết các tùy chọn, chúng không đối xứng ở chỗ chúng thể hiện tần số tương đối tốt hơn ở một chiều so với chiều khác. Một tính năng hay là tần số biên cũng được biểu diễn.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây


Điều này là tốt Cả hai số và tỷ lệ được đại diện. Số cũng có thể được đưa vào cốt truyện. Nếu thứ tự của mục trục x được sắp xếp, nó sẽ trông thậm chí còn tốt hơn. Bằng cách né tránh, tôi có nghĩa là barplot chung với các danh mục cạnh nhau, thay vì xếp chồng lên nhau (xem vị trí = 'dodge' trên trang này: r-bloggers.com/USE-r-barplot-with-ggplot2 ).
vào

1
+1 Thiết kế này thường hoạt động rất tốt thực sự cho dữ liệu tương đối đơn giản ; ngược lại, tôi thấy rằng nó cũng nhanh chóng trở nên khó nghĩ về những dữ liệu phức tạp hơn, mặc dù có nhiều sự nhấn mạnh trong tài liệu về khả năng mở rộng của nó đối với các bảng dự phòng có kích thước tùy ý. Tuy nhiên, không có thiết kế nào hoạt động tốt trong cả những trường hợp như vậy. Một điểm nhỏ với ví dụ này là bạn dường như đã chấp nhận thứ tự chữ cái mặc định "buổi chiều" ... "buổi trưa" được cung cấp bởi chương trình của bạn, trong khi duy trì trật tự thời gian có vẻ là một lựa chọn tự nhiên hơn.
Nick Cox

8

Tôi đồng ý rằng cốt truyện "tốt nhất" không tồn tại độc lập với dữ liệu, độc giả và mục đích. Đối với hai biến được đo, các biểu đồ phân tán được cho là thiết kế để lại tất cả các biến khác, ngoại trừ các mục đích cụ thể, nhưng không có nhà lãnh đạo thị trường như vậy rõ ràng cho dữ liệu phân loại.

Mục đích của tôi ở đây chỉ là đề cập đến một phương pháp đơn giản, thường được phát hiện lại hoặc phát minh lại, nhưng tuy nhiên cũng thường bị bỏ qua ngay cả trong các chuyên khảo hoặc sách giáo khoa bao gồm đồ họa thống kê.

Ví dụ đầu tiên, bao gồm cùng một dữ liệu như được đăng bởi xan:

nhập mô tả hình ảnh ở đây

Nếu một tên được muốn, như thường lệ, đây là một barchart thứ hai (trong trường hợp này). Tôi sẽ không liệt kê các thuật ngữ khác ở đây, ngoại trừ việc nhiều barchart là một thay thế phổ biến với hương vị tương tự. (Sự phản đối nhỏ của tôi đối với "nhiều barchart" là "nhiều" không loại trừ các biểu đồ thanh xếp chồng hoặc cạnh nhau rất phổ biến, trong khi "twoway" đối với tôi rõ ràng hơn bao hàm một cách bố trí hàng và cột, mặc dù đến lượt nó có thể lấy ví dụ để làm rõ điều đó.)

Điểm cộng và nhược điểm cho loại cốt truyện này cũng đơn giản, nhưng tôi sẽ đánh vần một số. Khi tôi thích thiết kế này (ít nhất là từ những năm 1930), những người khác có thể muốn thêm những lời chỉ trích sắc nét hơn.

+1. Ý tưởng dễ hiểu , ngay cả bởi các nhóm phi kỹ thuật. Chiều cao thanh hoặc độ dài thanh mã hóa tần số trong ví dụ này. Trong các ví dụ khác, họ có thể mã hóa phần trăm tính theo bất kỳ cách nào bạn muốn, phần dư, v.v.

+2. Cấu trúc hàng và cột khớp với cấu trúc của bảng . Bạn có thể thêm các giá trị số quá. Số lượng rất nhỏ và thậm chí các số 0 ẩn rõ ràng là điều hiển nhiên, điều này không phải lúc nào cũng đúng với các thiết kế khác (ví dụ: biểu đồ thanh xếp chồng lên nhau, các ô khảm). Ghi nhãn hàng và cột thường hiệu quả hơn so với việc thêm khóa hoặc chú giải, với "yêu cầu qua lại" tinh thần cần có. Do đó, thiết kế này kết hợp các ý tưởng đồ thị và bảng, dường như gây rắc rối cho một số độc giả; ngược lại, tôi sẽ lập luận rằng sự khác biệt mạnh mẽ giữa Hình và Bảng chỉ là sự treo cổ lịch sử, lỗi thời khi các nhà nghiên cứu có thể tự chuẩn bị tài liệu và không phải phụ thuộc vào nhà thiết kế, nhà soạn nhạc và máy in.

+3. Mở rộng cho các thiết kế ba chiều và cao hơn là dễ dàng về nguyên tắc . Đặt hai hoặc nhiều biến làm biến tổng hợp trên một hoặc cả hai trục hoặc đưa ra một mảng các ô như vậy. Đương nhiên, thiết kế càng phức tạp, diễn giải càng phức tạp.

+4. Thiết kế rõ ràng cho phép các biến số thứ tự trên một trong hai trục. Thứ tự có thể được thể hiện (ví dụ) bằng cách tô bóng thích hợp cũng như thứ tự các danh mục trên trục đó. Thứ tự danh mục trên các trục có thể được xác định bởi ý nghĩa của chúng, hoặc xác định tốt hơn bằng tần số; thứ tự chữ cái theo nhãn văn bản có thể là một mặc định, nhưng không bao giờ nên là lựa chọn duy nhất được xem xét.

-1. Bằng cách nói chung trong thiết kế, cốt truyện có thể kém hiệu quả hơn trong việc hiển thị các loại mối quan hệ nhất định . Đặc biệt, một âm mưu khảm có thể làm cho sự khởi hành từ độc lập rất rõ ràng. Ngược lại, khi mối quan hệ giữa các biến phân loại là phức tạp hoặc không rõ ràng, thì thông thường không có biểu đồ nào thể hiện tốt hơn thực tế yếu đó.

-2. Trong một số cách, thiết kế không hiệu quả trong việc sử dụng không gian bằng cách chừa chỗ cho mọi kết hợp chéo bất kể nó có xảy ra thường xuyên hay không. Đây là phó của cùng một nguyên tắc được coi là một đức tính. Thiết kế đặc biệt trên các không gian loại bằng nhau bất kể tần số của chúng; hy sinh mà thường hy sinh nhãn biên có thể đọc được, mà tôi đánh giá rất cao. Trong ví dụ này, các nhãn văn bản xảy ra rất ngắn, nhưng đó là xa điển hình.

Lưu ý: dữ liệu của xan dường như chỉ được phát minh, vì vậy tôi sẽ không thử giải thích nhiều hơn những câu trả lời khác. Nhưng một số trí tuệ âm hộ xứng đáng là từ cuối cùng ở đây: thiết kế tốt nhất cho bạn là một trong đó truyền tải tốt nhất cho bạn và độc giả của bạn cấu trúc của một số dữ liệu thực mà bạn quan tâm.

Các ví dụ khác bao gồm

Làm thế nào bạn có thể hình dung mối quan hệ giữa 3 biến phân loại?

Biểu đồ cho mối quan hệ giữa hai biến số thứ tự


1
+1 cho một tùy chọn khả thi khác và một số thảo luận tuyệt vời. Hãy để tôi hỏi một câu hỏi về barcharts 2 chiều / điểm đến một nhược điểm khác có thể có: Có một 'hộp' không được đánh dấu, nhưng có thể nhận biết rõ ràng trong đó các thanh có thể được vẽ. Khi thanh đến gần đỉnh của hộp, nó đạt 100%. Giá trị đó được xác định như thế nào? (NB, các bảng dự phòng luôn luôn đa dạng theo một nghĩa nào đó, với tổng số đã biết.) Việc tạo ra các tổng hàng hàng đầu hoặc tổng cột sẽ thúc đẩy các suy luận nhận thức khác nhau. (Không có vẻ như tổng số bảng được sử dụng, vì nhiều thanh sẽ quá nhỏ để phân biệt.)
gung - Tái lập Monica

1
@gung Cảm ơn. Tôi có thể nhận xét về chương trình Stata của riêng tôi, được sử dụng ở đây và trong các ví dụ của tôi ở nơi khác trong CV. Chương trình này là tabplottừ SSC. Chiều cao của các thanh nhất thiết phải là một phần nhỏ của chiều cao của thanh cao nhất hoặc dài nhất; không gian có sẵn cho điều đó được xác định bởi có bao nhiêu hàng đang được hiển thị. Người dùng có thể ghi đè kích thước khoảng cách mặc định, nhưng sau đó có nguy cơ các thanh chạm hoặc ẩn lẫn nhau. Nếu các thanh có thể tiêu cực cũng như tích cực, mọi thứ không dễ dàng hơn. Tôi tưởng tượng rằng cùng một ràng buộc cắn với bất kỳ chương trình khác. Trong ngắn hạn, thanh không chạm ngụ ý không gian màu trắng!
Nick Cox

8

Để bổ sung cho câu trả lời của @ gung's và @ xan, đây là một ví dụ về các ô ghép và các ô kết hợp sử dụng vcdtrong R.

> tab
        period
activity morning noon afternoon evening
  feed        28    4         0      56
  social      38    5         9      10
  travel       6    6        14      13

Để có được các lô:

require(vcd)
mosaic(tab, shade=T, legend=T)
assoc(tab, shade=T, legend=T)

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Cả hai trực giác xuất phát từ tần số dự kiến ​​... Mặc định là mô hình độc lập lẫn nhau , nhưng nó có thể được thay đổi (ví dụ: độc lập chung nếu có một biến phản ứng rõ ràng) thông qua expectedđối số.

Xem thêm:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.