Làm thế nào để tôi giải thích âm mưu phân tán này?


12

Tôi có một biểu đồ phân tán có cỡ mẫu bằng với số người trên trục x và lương trung bình trên trục y, tôi đang cố gắng tìm hiểu xem cỡ mẫu có ảnh hưởng gì đến lương trung bình không.

Đây là cốt truyện:

nhập mô tả hình ảnh ở đây

Làm thế nào để tôi giải thích cốt truyện này?


3
Nếu bạn có thể, tôi khuyên bạn nên làm việc với một biến đổi của cả hai biến. Nếu không có biến nào có số 0 chính xác, hãy xem thang đo log-log
Glen_b -Reinstate Monica

@Glen_b xin lỗi, tôi không quen với các điều khoản mà bạn đã nêu, chỉ bằng cách nhìn vào cốt truyện, bạn có thể tạo mối quan hệ giữa hai biến không? những gì tôi có thể đoán là đối với kích thước mẫu lên tới 1000 thì không có mối quan hệ nào vì đối với cùng các giá trị kích thước mẫu có nhiều giá trị trung bình. Đối với các giá trị lớn hơn 1000, mức lương trung bình dường như giảm. Bạn nghĩ sao ?
Tương tự

Tôi thấy không có bằng chứng rõ ràng cho điều đó, nó trông khá bằng phẳng đối với tôi; nếu có những thay đổi rõ ràng thì có lẽ nó sẽ diễn ra ở phần dưới của cỡ mẫu. Bạn có dữ liệu, hoặc chỉ hình ảnh của cốt truyện?
Glen_b -Reinstate Monica

4
Nếu bạn thấy trung vị là trung vị của n biến ngẫu nhiên, thì có nghĩa là sự biến thiên của trung vị giảm khi kích thước mẫu tăng. Điều đó sẽ giải thích sự lây lan lớn ở phía bên trái của cốt truyện.
JAD

2
Tuyên bố của bạn "đối với kích thước mẫu lên tới 1000 không có mối quan hệ nào vì đối với cùng các giá trị kích thước mẫu có nhiều giá trị trung bình" là không chính xác.
Peter Flom - Tái lập Monica

Câu trả lời:


9

"Tìm hiểu" cho biết bạn đang khám phá dữ liệu. Các xét nghiệm chính thức sẽ là thừa và nghi ngờ. Thay vào đó, áp dụng các kỹ thuật phân tích dữ liệu khám phá tiêu chuẩn (EDA) để tiết lộ những gì có thể có trong dữ liệu.

Những kỹ thuật tiêu chuẩn này bao gồm biểu hiện lại , phân tích dư , kỹ thuật mạnh mẽ ("ba R" của EDA) và làm mịn dữ liệu như được mô tả bởi John Tukey trong cuốn sách kinh điển EDA (1977) của ông. Làm thế nào để tiến hành một số trong số này được nêu trong bài đăng của tôi tại Box-Cox như biến đổi cho các biến độc lập? Trong hồi quy tuyến tính, khi nào thì thích hợp để sử dụng nhật ký của một biến độc lập thay vì các giá trị thực tế? , liên alia .

Kết quả cuối cùng có thể được nhìn thấy bằng cách thay đổi trục trục log-log (thể hiện lại cả hai biến một cách hiệu quả), làm mịn dữ liệu không quá tích cực và kiểm tra phần dư của mịn để kiểm tra những gì nó có thể đã bỏ lỡ, như tôi sẽ minh họa.

Dưới đây là dữ liệu được hiển thị rõ ràng - sau khi kiểm tra một số độ mịn với mức độ trung thực khác nhau với dữ liệu - có vẻ như là một sự thỏa hiệp tốt giữa quá nhiều và quá ít làm mịn. Nó sử dụng Loess, một phương pháp mạnh mẽ nổi tiếng (nó không bị ảnh hưởng nhiều bởi các điểm ngoại vi theo chiều dọc).

Phân tán log-log

Lưới dọc là trong các bước 10.000. Sự mượt mà không gợi ý một số biến thể củaGrad_median kích thước mẫu: dường như giảm khi kích thước mẫu đạt 1000. (Các đầu của độ mịn không đáng tin cậy - đặc biệt đối với các mẫu nhỏ, trong đó lỗi lấy mẫu được dự kiến ​​là tương đối lớn - vì vậy don 'Đọc quá nhiều vào chúng.) Ấn tượng về sự sụt giảm thực sự này được hỗ trợ bởi các dải tin cậy (rất thô) được vẽ bởi phần mềm xung quanh trơn tru: "độ rung" của nó lớn hơn độ rộng của các dải.

-0,220%

Chúng tôi quan tâm đến (a) liệu có các mẫu biến thể bổ sung khi thay đổi kích thước mẫu hay không và (b) liệu phân phối có điều kiện của phản hồi - phân phối dọc của các vị trí điểm - có giống nhau đáng kể trên tất cả các giá trị của cỡ mẫu hay không liệu một số khía cạnh của chúng (như sự lan rộng hoặc đối xứng của chúng) có thể thay đổi.

! [Hình 2 Lô đất dư

0,0

Do đó, tóm tắt đơn giản này:

lương trung bình thấp hơn khoảng 10.000 đối với cỡ mẫu gần 1000

nắm bắt đầy đủ các mối quan hệ xuất hiện trong dữ liệu và dường như giữ thống nhất trên tất cả các danh mục chính. Cho dù điều đó có ý nghĩa - nghĩa là, liệu nó có đứng vững khi đối mặt với dữ liệu bổ sung hay không - chỉ có thể được đánh giá bằng cách thu thập các dữ liệu bổ sung đó.


Đối với những người muốn kiểm tra công việc này hoặc đưa nó đi xa hơn, đây là Rmã.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

Glen_b đang đề nghị bạn lấy logarit của mẫu_s_s và lương trung bình để xem liệu thay đổi kích thước dữ liệu có hợp lý hay không.

Tôi không biết rằng tôi sẽ đồng ý với niềm tin của bạn rằng mức lương trung bình giảm khi kích thước mẫu tăng lên trên 1.000. Tôi có khuynh hướng nói rằng không có mối quan hệ nào cả. Liệu lý thuyết của bạn dự đoán rằng nên có một mối quan hệ?

Một cách khác bạn có thể đánh giá một mối quan hệ có thể là khớp đường hồi quy với dữ liệu. Ngoài ra, bạn cũng có thể sử dụng một đường cong lowess. Vẽ cả hai dòng vào dữ liệu của bạn và xem liệu có bất cứ điều gì có thể bị trêu chọc không (tuy nhiên tôi nghi ngờ có bất cứ điều gì quá đáng kể).


3
Scatterplot rất giống với biểu đồ hình phễu được sử dụng trong phân tích tổng hợp. Xem một ví dụ tương tự . Vẽ sơ đồ các dải phễu sẽ hiển thị rõ hơn nếu có bất kỳ mối quan hệ nào, có thể có một chút tích cực trong ví dụ này.
Andy W

6

Tôi cũng đồng ý không có mối quan hệ. Tôi đã tái tạo biểu đồ phân tán ban đầu của bạn (bên trái) và thực hiện biểu đồ phân tán log-log được đề xuất bởi glen_b (phải).

nhập mô tả hình ảnh ở đây

Có vẻ như không có mối quan hệ nào cả. Mối tương quan giữa dữ liệu chuyển đổi log là yếu (Pearson R = -.13) và không đáng kể (p = .09). Tùy thuộc vào lượng thông tin bổ sung mà bạn có có thể có lý do để thấy một số tương quan tiêu cực yếu, nhưng điều đó có vẻ như là một sự kéo dài. Tôi đoán rằng bất kỳ mô hình rõ ràng nào bạn nhìn thấy là cùng một hiệu ứng được thấy ở đây .

R= =0,0022p= =0,98


Cảm ơn bạn đã xem xét mối tương quan giữa cỡ trung bình và cỡ mẫu; Tôi đã rất bối rối bởi sự khác biệt giữa các con số!
famargar

0

Thử hồi quy tuyến tính sẽ dạy cho bạn một vài điều về mối quan hệ này, như được đề xuất trong câu trả lời đầu tiên. Vì có vẻ như bạn đang sử dụng python cộng với matplotlib cho âm mưu này, nên bạn là một dòng mã từ giải pháp.

Bạn có thể sử dụng khớp nối đáy biển, nó cũng sẽ hiển thị đường hồi quy tuyến tính, hệ số tương quan Pearson và giá trị p của nó:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

nhập mô tả hình ảnh ở đây

như bạn có thể thấy không có mối tương quan. Nhìn vào cốt truyện cuối cùng này, có vẻ như biến đổi log biến x sẽ hữu ích. Hãy thử nó:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

nhập mô tả hình ảnh ở đây

Bạn có thể thấy rõ rằng - chuyển đổi log hay không - tương quan là nhỏ và cả giá trị p và khoảng tin cậy đều nói rằng nó không có ý nghĩa thống kê.


3
Các dấu hiệu của phân phối có điều kiện sai lệch mạnh mẽ cho thấy đây không phải là một cách tiếp cận tốt. Khi bạn cũng quan sát thấy độ lệch của phân bố kích thước mẫu sẽ khiến một số cỡ mẫu lớn nhất kiểm soát sự xuất hiện của một xu hướng trong hồi quy, bạn sẽ thấy lý do tại sao những người khác lại khuyến nghị chuyển đổi sơ bộ dữ liệu.
whuber

1
Tôi không đoán hoặc suy đoán: cốt truyện trong câu hỏi cho thấy rõ những đặc điểm này. Cũng xem các lô được tạo bởi R Greg Stacey , trong đó - bằng cách áp dụng các phép biến đổi log-log được đề xuất - thể hiện những gì chúng thực hiện.
whuber

Tôi chỉ tìm thấy dữ liệu và tự nghiên cứu - vui lòng xem câu trả lời cập nhật.
famargar

Nghiên cứu của bạn đã bị khuất phục bởi hai vấn đề tôi lưu ý: sự xuất hiện của "không tương quan" xuất phát một phần không nhỏ đến các phản ứng có điều kiện sai lệch và đòn bẩy cho các giá trị hồi quy cao. Đặc biệt, cả dòng được trang bị cũng như các dải lỗi của nó đều không đáng tin cậy.
whuber

Xin vui lòng xem cốt truyện tôi vừa thêm; Tôi hy vọng tôi không bỏ lỡ bất cứ điều gì trong lần lặp lại cuối cùng này.
famargar

-1

Biểu đồ này hoạt động như một minh chứng cho định lý giới hạn trung tâm, trong đó độ biến thiên giữa các mẫu giảm khi kích thước mẫu tăng. Đó cũng là hình dạng mà bạn mong đợi với một biến bị sai lệch mạnh như tiền lương.


3
Đây không phải là các mẫu độc lập từ một dân số phổ biến. Điều đó làm cho sự liên quan của CLT khá có vấn đề.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.