Tôi có thể đánh giá độ lệch từ một biểu đồ phân tán với dữ liệu bivariate trong R không?


7

Đây là một phân tán của x (thu nhập) và y (dân số).  Từ biểu đồ phân tán, Có an toàn không khi nói rằng dữ liệu bị bỏ lại hoặc bị sai lệch?

plot(filterdacsom5$Median_Income,filterdacsom5$Total_Population,
     xlab="Income", ylab ="Population",
     main="Demographics plotted for all zip codes in 2017 ",col="red" )

Tôi là người mới Rvà hiểu sự sai lệch.

Đây là một biểu đồ tán xạ Median_Incometrên trục ngang và Total_Populationtrên trục tung. Từ biểu đồ phân tán, Có an toàn không khi nói rằng dữ liệu bị bỏ lại hoặc bị sai lệch?


2
bạn có thể thêm một rugvào các trục để bao gồm một số hiểu biết ở đây. Xem ?rug. Bản thân các biểu đồ phân tán không lý tưởng nếu độ lệch là tất cả những gì bạn quan tâm - các biểu đồ phân tán là đa chiều (x & y) nhưng độ lệch (AFAIK) chỉ được xác định cho RV một chiều (nghĩa là nó được xác định cho x và cho y chứ không phải (x , y))
MichaelChirico

Nếu bạn muốn xác minh trong âm mưu nếu dữ liệu bị lệch sang trái, hãy thêm giá trị trung bình và trung bình. Nếu giá trị trung bình nhỏ hơn trung vị, nó bị lệch.
Jon mùa xuân

@JonSpring nói chung không đúng khi bạn có thể đánh giá rằng bạn có thể đánh giá độ lệch từ trung bình và trung bình.
Benjamin Christoffersen

Câu trả lời:


3

Có an toàn để nói rằng dữ liệu bị bỏ lại hoặc sai lệch?

Không, nó không phải là an toàn: Thứ nhất, sự xuất hiện của cốt truyện là tích cực (phải) nghiêng, không tiêu cực (trái) nghiêng. Bất kể, bạn cần phải cẩn thận ở đây vì có quá âm mưu , mà có nghĩa là bạn không thể thực sự nhìn thấy những gì đang xảy ra trong đó khối đỏ lớn ở giữa. Mặc dù khó có thể xảy ra, nhưng rất có thể khối lượng điểm đỏ này đang che giấu sự tập trung của các điểm sẽ làm giảm độ lệch dương của một hoặc cả hai biến (hoặc thậm chí có thể gây ra độ lệch âm). Để có được một đánh giá tốt hơn về độ lệch của hai biến Tôi muốn giới thiệu xây dựng lô mật độ hạt nhân của các biến quan tâm và tính toán độ lệch mẫu của các biến ( Rmã cho dưới đây).

library(moments);    #Make sure you have installed this package first

DATA <- filterdacsom5;

#Check skewness of median income
skewness(DATA$Median_Income);
plot(density(DATA$Median_Income));    

#Check skewness of population
skewness(DATA$Total_Population);
plot(density(DATA$Total_Population)); 

Lưu ý rằng biểu đồ phân tán cung cấp cho bạn thông tin về phân phối chung của các biến mà bạn sẽ không nhận được từ các ô mật độ riêng lẻ. Nếu bạn muốn thấy sự biểu diễn tốt hơn của các biến trong biểu đồ phân tán, tôi khuyên bạn nên điều chỉnh nó để xử lý tình trạng quá âm mưu --- ví dụ: sử dụng độ trong suốt alpha hoặc biểu đồ đường viền.


1

Sự chấp thuận này có thể sai chính tả và đây là lý do tại sao.

Scatterplot có thể cho bạn biết điều gì đó về sự phân phối của từng biến. Nhưng scatterplot cũng cho bạn biết điều gì đó về mối quan hệ giữa hai biến, điều này có thể dẫn đến các vấn đề nếu một người giải thích về một trong các biến đó, ví dụ như diễn giải độ lệch.

Giả sử một số dữ liệu có độ không đồng nhất trong đó y không có giá trị âm (như trong ví dụ của bạn). Cốt truyện kết quả có thể là như thế này:

Âm mưu

Biểu đồ kết quả trông tương đối gần với biểu đồ được cung cấp và biểu đồ cho thấy x bị sai lệch mặc dù thực tế không phải vậy vì x có phân phối đồng đều (xem mã để tạo dữ liệu bên dưới) như biểu đồ cho x hiển thị:

lịch sử của x

Do đó, mối quan hệ giữa các biến có thể dẫn đến một biểu đồ phân tán sai lệch về mặt diễn giải sự phân phối của một biến.

Mã tôi đã sử dụng cho cốt truyện:

set.seed(568)
x      = rep(1:10000,2)
a <- 20000
b      = -2
sigma2 = x^2
eps    = rnorm(x,mean=0,sd= rev(sqrt(sigma2))) # heteroscedasticity
y      = a + b*x + eps
y[y<0] <- -y[y<0] # no negative values in y
plot(x, y)

EDIT: Tôi đồng ý với Ben rằng tính minh bạch và quá mức là rất quan trọng trong trường hợp này và đây là lý do tại sao tôi chọn cỡ mẫu lớn như vậy cho ví dụ của mình. Sử dụng minh bạch để cùng một dữ liệu ít sai sót hơn.

plot(x, y, col = alpha("black", 0.05))

Lô với sự minh bạch

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.