Có lẽ bạn sẽ được hưởng lợi từ một công cụ thăm dò. Việc chia dữ liệu thành các deciles của tọa độ x dường như đã được thực hiện theo tinh thần đó. Với các sửa đổi được mô tả dưới đây, đó là một cách tiếp cận hoàn toàn tốt.
Nhiều phương pháp thăm dò bivariate đã được phát minh. Một điều đơn giản được đề xuất bởi John Tukey ( EDA , Addison-Wesley 1977) là "âm mưu sơ đồ lang thang" của ông. Bạn cắt tọa độ x thành các thùng, dựng một ô vuông dọc của dữ liệu y tương ứng ở vị trí trung bình của mỗi thùng và kết nối các phần chính của các ô vuông (trung vị, bản lề, v.v.) thành các đường cong (tùy ý làm mịn chúng). Các "dấu vết lang thang" này cung cấp một bức tranh về phân phối dữ liệu bivariate và cho phép đánh giá trực quan ngay lập tức về mối tương quan, tuyến tính của mối quan hệ, ngoại lệ và phân phối biên, cũng như ước lượng mạnh mẽ và đánh giá mức độ phù hợp của bất kỳ hàm hồi quy phi tuyến nào .
2- k1 - 2- kk = 1 , 2 , 3 , ...
Để hiển thị các quần thể bin khác nhau, chúng ta có thể làm cho mỗi chiều rộng của boxplot tỷ lệ thuận với lượng dữ liệu mà nó đại diện.
Kết quả sơ đồ lang thang kết quả sẽ trông giống như thế này. Dữ liệu, như được phát triển từ bản tóm tắt dữ liệu, được hiển thị dưới dạng các chấm màu xám trong nền. Về điều này, cốt truyện sơ đồ lang thang đã được vẽ ra, với năm dấu vết màu sắc và các ô vuông (bao gồm bất kỳ ngoại lệ nào được hiển thị) bằng màu đen và trắng.
x = - 4x = 4- 0,074đối với những dữ liệu này) gần bằng không. Tuy nhiên, khăng khăng giải thích rằng "gần như không có tương quan" hoặc "tương quan thấp nhưng có ý nghĩa thấp" sẽ là cùng một lỗi giả mạo trong trò đùa cũ về nhà thống kê hài lòng với cái đầu trong lò nướng và chân trong hộp đá vì trung bình nhiệt độ thoải mái Đôi khi một số duy nhất sẽ không làm để mô tả tình huống.
Các công cụ thăm dò thay thế với các mục đích tương tự bao gồm các dữ liệu lượng tử cửa sổ dữ liệu và các phép hồi quy lượng tử sử dụng một loạt các lượng tử. Với sự sẵn có của phần mềm để thực hiện các tính toán này, có lẽ chúng trở nên dễ thực hiện hơn so với dấu vết sơ đồ lang thang, nhưng chúng không thích sự đơn giản trong xây dựng, dễ giải thích và khả năng ứng dụng rộng rãi.
Đoạn R
mã sau tạo ra hình và có thể được áp dụng cho dữ liệu gốc với rất ít hoặc không có thay đổi. (Bỏ qua các cảnh báo được tạo bởi bplt
(được gọi bởi bxp
): nó phàn nàn khi không có ngoại lệ để vẽ.)
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))