Đối với dữ liệu theo chiều dọc với kết quả bằng số, tôi có thể sử dụng các lô spaghetti để trực quan hóa dữ liệu. Ví dụ: một cái gì đó như thế này (lấy từ trang thống kê UCLA):
tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T)
head(tolerance, n=10)
interaction.plot(tolerance$time, tolerance$id, tolerance$tolerance,
xlab="time", ylab="Tolerance", legend=F)
Nhưng nếu kết quả của tôi là nhị phân 0 hoặc 1 thì sao? Ví dụ: trong dữ liệu "ohio" trong R, biến "resp" nhị phân chỉ ra sự hiện diện của bệnh hô hấp:
library(geepack)
ohio2 <- ohio[2049:2148,]
head(ohio2, n=12)
resp id age smoke
2049 1 512 -2 1
2050 0 512 -1 1
2051 0 512 0 1
2052 0 512 1 1
2053 1 513 -2 1
2054 0 513 -1 1
2055 0 513 0 1
2056 1 513 1 1
2057 1 514 -2 1
2058 0 514 -1 1
2059 0 514 0 1
2060 1 514 1 1
interaction.plot(ohio2$age+9, ohio2$id, ohio2$resp,
xlab="age", ylab="Wheeze status", legend=F)
Cốt truyện spaghetti cho một con số đẹp, nhưng không nhiều thông tin và không cho tôi biết nhiều. Điều gì sẽ là một cách phù hợp để hình dung loại dữ liệu này? Có lẽ một cái gì đó bao gồm một giá trị xác suất trên trục y?
ohio
dữ liệu (2.15) (ít nhất không phải là một phần của cơ sở). Có phải trong một phiên bản mới hơn hoặc thông qua một số thư viện khác? Đây sẽ là một ứng dụng thú vị cho bản đồ nhiệt với các cá nhân trên trục Y và kết quả trên trục X, sau đó vẽ 1 phản hồi là đen và 0 phản hồi là trắng. Sắp xếp ma trận sau đó sẽ cung cấp một cái nhìn tổng quan về mức độ phổ biến của các mẫu khác nhau.
geepack
gói hàng.