Tôi có một biểu đồ phân tán có cỡ mẫu bằng với số người trên trục x và lương trung bình trên trục y, tôi đang cố gắng tìm hiểu xem cỡ mẫu có ảnh hưởng gì đến lương trung bình không.
Đây là cốt truyện:
Làm thế nào để tôi giải thích cốt truyện này?
Tôi có một biểu đồ phân tán có cỡ mẫu bằng với số người trên trục x và lương trung bình trên trục y, tôi đang cố gắng tìm hiểu xem cỡ mẫu có ảnh hưởng gì đến lương trung bình không.
Đây là cốt truyện:
Làm thế nào để tôi giải thích cốt truyện này?
Câu trả lời:
"Tìm hiểu" cho biết bạn đang khám phá dữ liệu. Các xét nghiệm chính thức sẽ là thừa và nghi ngờ. Thay vào đó, áp dụng các kỹ thuật phân tích dữ liệu khám phá tiêu chuẩn (EDA) để tiết lộ những gì có thể có trong dữ liệu.
Những kỹ thuật tiêu chuẩn này bao gồm biểu hiện lại , phân tích dư , kỹ thuật mạnh mẽ ("ba R" của EDA) và làm mịn dữ liệu như được mô tả bởi John Tukey trong cuốn sách kinh điển EDA (1977) của ông. Làm thế nào để tiến hành một số trong số này được nêu trong bài đăng của tôi tại Box-Cox như biến đổi cho các biến độc lập? và Trong hồi quy tuyến tính, khi nào thì thích hợp để sử dụng nhật ký của một biến độc lập thay vì các giá trị thực tế? , liên alia .
Kết quả cuối cùng có thể được nhìn thấy bằng cách thay đổi trục trục log-log (thể hiện lại cả hai biến một cách hiệu quả), làm mịn dữ liệu không quá tích cực và kiểm tra phần dư của mịn để kiểm tra những gì nó có thể đã bỏ lỡ, như tôi sẽ minh họa.
Dưới đây là dữ liệu được hiển thị rõ ràng - sau khi kiểm tra một số độ mịn với mức độ trung thực khác nhau với dữ liệu - có vẻ như là một sự thỏa hiệp tốt giữa quá nhiều và quá ít làm mịn. Nó sử dụng Loess, một phương pháp mạnh mẽ nổi tiếng (nó không bị ảnh hưởng nhiều bởi các điểm ngoại vi theo chiều dọc).
Lưới dọc là trong các bước 10.000. Sự mượt mà không gợi ý một số biến thể củaGrad_median
kích thước mẫu: dường như giảm khi kích thước mẫu đạt 1000. (Các đầu của độ mịn không đáng tin cậy - đặc biệt đối với các mẫu nhỏ, trong đó lỗi lấy mẫu được dự kiến là tương đối lớn - vì vậy don 'Đọc quá nhiều vào chúng.) Ấn tượng về sự sụt giảm thực sự này được hỗ trợ bởi các dải tin cậy (rất thô) được vẽ bởi phần mềm xung quanh trơn tru: "độ rung" của nó lớn hơn độ rộng của các dải.
Chúng tôi quan tâm đến (a) liệu có các mẫu biến thể bổ sung khi thay đổi kích thước mẫu hay không và (b) liệu phân phối có điều kiện của phản hồi - phân phối dọc của các vị trí điểm - có giống nhau đáng kể trên tất cả các giá trị của cỡ mẫu hay không liệu một số khía cạnh của chúng (như sự lan rộng hoặc đối xứng của chúng) có thể thay đổi.
Do đó, tóm tắt đơn giản này:
lương trung bình thấp hơn khoảng 10.000 đối với cỡ mẫu gần 1000
nắm bắt đầy đủ các mối quan hệ xuất hiện trong dữ liệu và dường như giữ thống nhất trên tất cả các danh mục chính. Cho dù điều đó có ý nghĩa - nghĩa là, liệu nó có đứng vững khi đối mặt với dữ liệu bổ sung hay không - chỉ có thể được đánh giá bằng cách thu thập các dữ liệu bổ sung đó.
Đối với những người muốn kiểm tra công việc này hoặc đưa nó đi xa hơn, đây là R
mã.
library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA of Median Salary vs. Sample Size",
paste("Span of smooth is", signif(span, 2)))
print(g)
span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
paste("Span of smooth is", signif(span, 2)))
print(g.r)
Glen_b đang đề nghị bạn lấy logarit của mẫu_s_s và lương trung bình để xem liệu thay đổi kích thước dữ liệu có hợp lý hay không.
Tôi không biết rằng tôi sẽ đồng ý với niềm tin của bạn rằng mức lương trung bình giảm khi kích thước mẫu tăng lên trên 1.000. Tôi có khuynh hướng nói rằng không có mối quan hệ nào cả. Liệu lý thuyết của bạn dự đoán rằng nên có một mối quan hệ?
Một cách khác bạn có thể đánh giá một mối quan hệ có thể là khớp đường hồi quy với dữ liệu. Ngoài ra, bạn cũng có thể sử dụng một đường cong lowess. Vẽ cả hai dòng vào dữ liệu của bạn và xem liệu có bất cứ điều gì có thể bị trêu chọc không (tuy nhiên tôi nghi ngờ có bất cứ điều gì quá đáng kể).
Tôi cũng đồng ý không có mối quan hệ. Tôi đã tái tạo biểu đồ phân tán ban đầu của bạn (bên trái) và thực hiện biểu đồ phân tán log-log được đề xuất bởi glen_b (phải).
Có vẻ như không có mối quan hệ nào cả. Mối tương quan giữa dữ liệu chuyển đổi log là yếu (Pearson R = -.13) và không đáng kể (p = .09). Tùy thuộc vào lượng thông tin bổ sung mà bạn có có thể có lý do để thấy một số tương quan tiêu cực yếu, nhưng điều đó có vẻ như là một sự kéo dài. Tôi đoán rằng bất kỳ mô hình rõ ràng nào bạn nhìn thấy là cùng một hiệu ứng được thấy ở đây .
Thử hồi quy tuyến tính sẽ dạy cho bạn một vài điều về mối quan hệ này, như được đề xuất trong câu trả lời đầu tiên. Vì có vẻ như bạn đang sử dụng python cộng với matplotlib cho âm mưu này, nên bạn là một dòng mã từ giải pháp.
Bạn có thể sử dụng khớp nối đáy biển, nó cũng sẽ hiển thị đường hồi quy tuyến tính, hệ số tương quan Pearson và giá trị p của nó:
sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")
như bạn có thể thấy không có mối tương quan. Nhìn vào cốt truyện cuối cùng này, có vẻ như biến đổi log biến x sẽ hữu ích. Hãy thử nó:
df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")
Bạn có thể thấy rõ rằng - chuyển đổi log hay không - tương quan là nhỏ và cả giá trị p và khoảng tin cậy đều nói rằng nó không có ý nghĩa thống kê.
Biểu đồ này hoạt động như một minh chứng cho định lý giới hạn trung tâm, trong đó độ biến thiên giữa các mẫu giảm khi kích thước mẫu tăng. Đó cũng là hình dạng mà bạn mong đợi với một biến bị sai lệch mạnh như tiền lương.