Đó là giá trị rõ ràng về mục đích của cốt truyện của bạn. Nói chung, có hai loại mục tiêu khác nhau: bạn có thể tự lập các âm mưu để đánh giá các giả định bạn đang thực hiện và hướng dẫn quy trình phân tích dữ liệu hoặc bạn có thể thực hiện các âm mưu để truyền đạt kết quả cho người khác. Những cái này không giống nhau; ví dụ, nhiều người xem / người đọc phân tích / phân tích của bạn có thể không thống kê về mặt thống kê và có thể không quen thuộc với ý tưởng về phương sai tương đương và vai trò của nó trong bài kiểm tra t. Bạn muốn âm mưu của bạn truyền tải thông tin quan trọng về dữ liệu của bạn ngay cả với người tiêu dùng như họ. Họ đang ngầm tin tưởng rằng bạn đã làm mọi thứ một cách chính xác. Từ thiết lập câu hỏi của bạn, tôi tập hợp bạn sau loại sau.
Trên thực tế, âm mưu phổ biến nhất và được chấp nhận để truyền đạt kết quả của bài kiểm tra t 1 cho người khác (đặt sang một bên xem nó có thực sự phù hợp nhất hay không) là biểu đồ thanh phương tiện với các thanh lỗi chuẩn. Điều này rất phù hợp với kiểm tra t trong đó kiểm tra t so sánh hai phương tiện sử dụng các lỗi tiêu chuẩn của chúng. Khi bạn có hai nhóm độc lập, điều này sẽ mang lại một hình ảnh trực quan, ngay cả đối với những người không thống kê về mặt thống kê và mọi người có thể "ngay lập tức thấy rằng họ có thể đến từ hai quần thể khác nhau". Đây là một ví dụ đơn giản sử dụng dữ liệu của @ Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Điều đó nói rằng, các chuyên gia trực quan hóa dữ liệu thường coi thường các lô này. Chúng thường bị chế giễu là "lô thuốc nổ" (xem, Tại sao lô thuốc nổ là xấu ). Đặc biệt, nếu bạn chỉ có một vài dữ liệu, bạn thường chỉ nên hiển thị dữ liệu đó . Nếu các điểm trùng nhau, bạn có thể xáo trộn chúng theo chiều ngang (thêm một lượng nhiễu ngẫu nhiên nhỏ) để chúng không còn chồng lấp. Bởi vì kiểm tra t về cơ bản là về phương tiện và lỗi tiêu chuẩn, tốt nhất là phủ lớp phương tiện và lỗi tiêu chuẩn lên một âm mưu như vậy. Đây là một phiên bản khác nhau:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Nếu bạn có nhiều dữ liệu, boxplots có thể là lựa chọn tốt hơn để có cái nhìn tổng quan nhanh về các bản phân phối và bạn có thể phủ lên các phương tiện và SE cũng ở đó.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Các sơ đồ đơn giản của dữ liệu và các ô vuông, đủ đơn giản để hầu hết mọi người có thể hiểu chúng ngay cả khi họ không hiểu biết về thống kê. Mặc dù vậy, hãy nhớ rằng không ai trong số này giúp dễ dàng đánh giá tính hợp lệ của việc sử dụng kiểm tra t để so sánh các nhóm của bạn. Những mục tiêu đó được phục vụ tốt nhất bởi các loại lô khác nhau.
1. Lưu ý rằng cuộc thảo luận này giả định một thử nghiệm mẫu độc lập. Các ô này có thể được sử dụng với kiểm tra mẫu phụ thuộc, nhưng cũng có thể gây hiểu nhầm trong bối cảnh đó (xem, Sử dụng các thanh lỗi cho phương tiện trong nghiên cứu bên trong đối tượng có sai không? ).