Bởi vì phương sai trong số lượng hoặc tỷ lệ có xu hướng tỷ lệ thuận với số lượng hoặc tỷ lệ chính nó, nên lý thuyết (và nhiều kinh nghiệm) đề xuất phân tích căn bậc hai của dữ liệu.
Xem cho chính mình bằng cách vẽ tỷ lệ và tổng số trên các trục căn bậc hai.
Vì vậy, mỗi cột có tác động trực quan tỷ lệ thuận với số đếm mà nó đại diện, chiều rộng của cột (cũng như chiều cao của chúng) cũng tỷ lệ với căn bậc hai của số đếm: điều này làm cho diện tích của các cột tỷ lệ thuận với số đếm. Các cột chỉ được vẽ nhẹ bởi vì chúng được quan tâm thứ cấp trong sự trực quan hóa tỷ lệ này , như tiêu đề nêu.
Sự thay đổi rõ ràng ngẫu nhiên của các điểm (đại diện cho tỷ lệ) xung quanh độ mịn của chúng (được hiển thị dưới dạng đường màu xanh), cũng như sự đối xứng gần đúng của biến thể đó xung quanh độ mịn, chứng thực sự phù hợp của thang đo căn bậc hai. Họ cũng cho rằng một phân tích phức tạp hơn về tương quan thời gian là không cần thiết: bạn có thể tự tin rằng các xu hướng bạn thấy trong âm mưu này là có thật. Họ đưa ra một bức tranh tinh tế hơn đề xuất trong câu hỏi: tỷ lệ tăng lên, nhưng chỉ trong bảy năm đầu tiên.
Tạo một cốt truyện kết hợp như vậy có thể được thực hiện trong Excel hoặc Stata, nhưng khó khăn, cầu kỳ và tốn thời gian trong cả hai chương trình. Ví dụ này được sản xuất với ggplot2
gói trong R
(phiên bản 3.4.0).
Để minh họa quá trình, đây là R
mã đầy đủ .
library(ggplot2)
X <- data.frame(Year=2003:2016,
Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
All=c(3007,5200,6000,5900,6740,7070,7120,
7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
fill="#ffffe0", alpha=0.75, color="Gray") +
geom_smooth(size=1.25) +
geom_point(size=2) +
ylab("All") +
scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")