Sự chấp thuận này có thể sai chính tả và đây là lý do tại sao.
Scatterplot có thể cho bạn biết điều gì đó về sự phân phối của từng biến. Nhưng scatterplot cũng cho bạn biết điều gì đó về mối quan hệ giữa hai biến, điều này có thể dẫn đến các vấn đề nếu một người giải thích về một trong các biến đó, ví dụ như diễn giải độ lệch.
Giả sử một số dữ liệu có độ không đồng nhất trong đó y không có giá trị âm (như trong ví dụ của bạn). Cốt truyện kết quả có thể là như thế này:
Biểu đồ kết quả trông tương đối gần với biểu đồ được cung cấp và biểu đồ cho thấy x bị sai lệch mặc dù thực tế không phải vậy vì x có phân phối đồng đều (xem mã để tạo dữ liệu bên dưới) như biểu đồ cho x hiển thị:
Do đó, mối quan hệ giữa các biến có thể dẫn đến một biểu đồ phân tán sai lệch về mặt diễn giải sự phân phối của một biến.
Mã tôi đã sử dụng cho cốt truyện:
set.seed(568)
x = rep(1:10000,2)
a <- 20000
b = -2
sigma2 = x^2
eps = rnorm(x,mean=0,sd= rev(sqrt(sigma2))) # heteroscedasticity
y = a + b*x + eps
y[y<0] <- -y[y<0] # no negative values in y
plot(x, y)
EDIT: Tôi đồng ý với Ben rằng tính minh bạch và quá mức là rất quan trọng trong trường hợp này và đây là lý do tại sao tôi chọn cỡ mẫu lớn như vậy cho ví dụ của mình. Sử dụng minh bạch để cùng một dữ liệu ít sai sót hơn.
plot(x, y, col = alpha("black", 0.05))
rug
vào các trục để bao gồm một số hiểu biết ở đây. Xem?rug
. Bản thân các biểu đồ phân tán không lý tưởng nếu độ lệch là tất cả những gì bạn quan tâm - các biểu đồ phân tán là đa chiều (x & y) nhưng độ lệch (AFAIK) chỉ được xác định cho RV một chiều (nghĩa là nó được xác định cho x và cho y chứ không phải (x , y))