Làm thế nào tôi có thể hiển thị liệu hai chuỗi thời gian có khác nhau hay không?


7

Tôi có một bộ dữ liệu nhỏ cho thấy số lượng bệnh nhân trẻ tuổi trong sổ đăng ký bệnh đang tăng lên theo thời gian. Tôi nghi ngờ rằng điều này chỉ là do đăng ký đã trở nên thành công hơn theo thời gian và bây giờ nắm bắt được một tỷ lệ lớn hơn các trường hợp.

Do đó, tôi muốn vẽ số lượng bệnh nhân trẻ tuổi trong sổ đăng ký mỗi năm, ví dụ trên biểu đồ đường, bên cạnh tổng số bệnh nhân (tức là mọi lứa tuổi) có trong sổ đăng ký mỗi năm và chứng minh có hay không

Tôi đã thực hiện điều này một cách thô bạo trong Excel và các xu hướng không giống nhau. Do đó, tôi muốn chứng minh liệu các xu hướng có phù hợp với nhau về mặt thống kê / đồ họa hay không. Bất cứ ai cũng có thể đề xuất một cách tốt để làm điều này bằng cách sử dụng Stata hoặc Excel?

Mẫu dữ liệu


Là câu hỏi của bạn thực sự hỏi "làm thế nào để tôi biết nếu một tỷ lệ đang thay đổi theo thời gian"?
Cá bạc

Bạn đã xem xét các thuật toán cong vênh thời gian năng động ?
Bruno Wu

Câu trả lời:


8

Bởi vì phương sai trong số lượng hoặc tỷ lệ có xu hướng tỷ lệ thuận với số lượng hoặc tỷ lệ chính nó, nên lý thuyết (và nhiều kinh nghiệm) đề xuất phân tích căn bậc hai của dữ liệu.

Xem cho chính mình bằng cách vẽ tỷ lệ và tổng số trên các trục căn bậc hai.

Nhân vật

Vì vậy, mỗi cột có tác động trực quan tỷ lệ thuận với số đếm mà nó đại diện, chiều rộng của cột (cũng như chiều cao của chúng) cũng tỷ lệ với căn bậc hai của số đếm: điều này làm cho diện tích của các cột tỷ lệ thuận với số đếm. Các cột chỉ được vẽ nhẹ bởi vì chúng được quan tâm thứ cấp trong sự trực quan hóa tỷ lệ này , như tiêu đề nêu.

Sự thay đổi rõ ràng ngẫu nhiên của các điểm (đại diện cho tỷ lệ) xung quanh độ mịn của chúng (được hiển thị dưới dạng đường màu xanh), cũng như sự đối xứng gần đúng của biến thể đó xung quanh độ mịn, chứng thực sự phù hợp của thang đo căn bậc hai. Họ cũng cho rằng một phân tích phức tạp hơn về tương quan thời gian là không cần thiết: bạn có thể tự tin rằng các xu hướng bạn thấy trong âm mưu này là có thật. Họ đưa ra một bức tranh tinh tế hơn đề xuất trong câu hỏi: tỷ lệ tăng lên, nhưng chỉ trong bảy năm đầu tiên.

Tạo một cốt truyện kết hợp như vậy có thể được thực hiện trong Excel hoặc Stata, nhưng khó khăn, cầu kỳ và tốn thời gian trong cả hai chương trình. Ví dụ này được sản xuất với ggplot2gói trong R(phiên bản 3.4.0).


Để minh họa quá trình, đây là Rmã đầy đủ .

library(ggplot2)
X <- data.frame(Year=2003:2016,
                Young=c(17,23,22,35,46,71,80,68,76,84,74,88,62,60),
                All=c(3007,5200,6000,5900,6740,7070,7120,
                      7324,7620,8051,8437,9130,8930,9000)*10)
scale.dup <- 0.5e6 # Proportional to column heights in the plot
ggplot(X, aes(Year, 100 * scale.dup * Young/All)) +
  geom_col(aes(Year, All, width=2.25*sqrt(All/scale.dup)),
           fill="#ffffe0", alpha=0.75, color="Gray") +
  geom_smooth(size=1.25) +
  geom_point(size=2) +
  ylab("All") +
  scale_y_continuous(sec.axis=dup_axis(~. / scale.dup, "Young / All (%)"), trans="sqrt") +
  ggtitle("Disease Registry Patient Proportions", "2003 - 2016 (square root scales)")

Thật tuyệt vời - cảm ơn bạn. Tôi chỉ có một người quen biết với R. Bạn có sẵn sàng chia sẻ mã bạn đã sử dụng để tạo ra con số đó hoặc hướng đến một tài nguyên trợ giúp tập trung có thể giúp tôi đạt được điều gì đó tương tự không?
MonteCristo

Bạn có thể mở rộng về lý do tại sao bạn sử dụng căn bậc hai? Tôi đã thử làm lại với tỷ lệ tuyến tính (tôi chỉ xóa hai tham chiếu đến sqrt) và hình dạng của cả hai thanh màu vàng và đường màu xanh vẫn giữ nguyên, vì vậy có vẻ như bạn sẽ rút ra kết luận tương tự.
Darren Cook

@Darren, dữ liệu được tính thường theo phân phối Binomial. Các số đếm là các phân số nhỏ của tổng số do đó sẽ có các phương sai gần với chính các số đếm. Căn bậc hai là phép biến đổi ổn định phương sai trong các trường hợp như vậy: nghĩa là lượng biến thiên có khả năng (dọc) trong ô sẽ giống nhau trên thang đo căn bậc hai, bất kể số lượng có thể thay đổi như thế nào, trong khi số lượng sẽ thay đổi trên quy mô tuyến tính. Đạt được sự đồng nhất như vậy là hữu ích trong phân tích thăm dò và trong việc lựa chọn các thủ tục thống kê.
whuber

@whuber Cảm ơn. Tôi vẫn không thực sự hiểu nó, nhưng tôi sẽ thử tìm hiểu về các bản phân phối nhị thức và xem sự giác ngộ có đến không. :-)
Darren Cook
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.