Là sử dụng deciles để tìm mối tương quan một cách tiếp cận hợp lệ?


10

Tôi có một mẫu gồm 1.449 điểm dữ liệu không tương quan (r bình phương 0,006).

Khi phân tích dữ liệu, tôi phát hiện ra rằng bằng cách chia các giá trị biến độc lập thành các nhóm dương và âm, dường như có sự khác biệt đáng kể về trung bình của biến phụ thuộc cho mỗi nhóm.

Chia các điểm thành 10 thùng (deciles) bằng cách sử dụng các giá trị biến độc lập, dường như có mối tương quan mạnh hơn giữa số decile và giá trị biến phụ thuộc trung bình (r bình phương 0,27).

Tôi không biết nhiều về thống kê nên đây là một vài câu hỏi:

  1. Đây có phải là một phương pháp thống kê hợp lệ?
  2. Có một phương pháp để tìm số thùng tốt nhất?
  3. Thuật ngữ thích hợp cho phương pháp này là gì để tôi có thể Google nó?
  4. Một số tài nguyên giới thiệu để tìm hiểu về phương pháp này là gì?
  5. Một số cách tiếp cận khác tôi có thể sử dụng để tìm mối quan hệ trong dữ liệu này là gì?

Dưới đây là dữ liệu decile để tham khảo: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: Đây là hình ảnh của dữ liệu: Động lượng ngành là biến độc lập, Chất lượng điểm đầu vào phụ thuộc

Động lượng ngành là biến độc lập, Chất lượng điểm đầu vào phụ thuộc


Hy vọng rằng câu trả lời của tôi (đặc biệt là các câu trả lời 2-4) được hiểu theo nghĩa nó được dự định.
Glen_b -Reinstate Monica

Nếu mục đích của bạn là khám phá một hình thức mối quan hệ giữa độc lập và người phụ thuộc, thì đây là một kỹ thuật thăm dò tốt. Nó có thể xúc phạm các nhà thống kê nhưng được sử dụng trong công nghiệp mọi lúc (ví dụ như rủi ro tín dụng). Nếu bạn đang xây dựng một mô hình dự đoán, thì một lần nữa tính năng kỹ thuật là OK - nếu nó được thực hiện trên một tập huấn được xác nhận hợp lệ.
B_Miner

Bạn có thể cung cấp bất kỳ tài nguyên nào về cách đảm bảo kết quả được "xác nhận hợp lệ" không?
B Bảy

"không tương quan (r bình phương 0,006)" có nghĩa là chúng không tương quan tuyến tính . Có lẽ có một số mối tương quan khác liên quan. Bạn đã vẽ dữ liệu thô (phụ thuộc so với độc lập)?
Emil Friedman

Tôi đã vẽ sơ đồ dữ liệu, nhưng không nghĩ sẽ thêm nó vào câu hỏi. Thật là một ý tưởng hay! Xin vui lòng xem câu hỏi cập nhật.
B Bảy

Câu trả lời:


9

0. Tương quan (0,0775) là nhỏ nhưng (về mặt thống kê) khác biệt đáng kể so với 0. Đó là, có vẻ như thực sự có mối tương quan, nó chỉ rất nhỏ / yếu (tương đương, có rất nhiều tiếng ồn xung quanh mối quan hệ).

σ/n

xchính xác kết quả mà bạn hy vọng .

3. Có. Có thể bắt đầu với tìm kiếm này , sau đó có thể thử từ đồng nghĩa.

4. Đây là một nơi tốt để bắt đầu; đó là một cuốn sách rất phổ biến nhằm vào những người không thống kê.

5. (nghiêm túc hơn :) Tôi đề nghị làm mịn (chẳng hạn như thông qua hồi quy đa thức cục bộ / làm mịn kernel, nói) như một cách để điều tra các mối quan hệ. Chính xác, nó phụ thuộc vào những gì bạn muốn, nhưng đây có thể là một cách tiếp cận hợp lệ khi bạn không biết hình thức của mối quan hệ, miễn là bạn tránh được vấn đề nạo vét dữ liệu.


Có một câu nói phổ biến, người khởi xướng có vẻ là Ronald Coase :

"Nếu bạn tra tấn dữ liệu đủ, thiên nhiên sẽ luôn thú nhận."


Điểm 1 & 2 là những giải thích tốt về lý do tại sao phương pháp của OP không phải là phương pháp thống kê hợp lệ, mặc dù đó là một phương pháp phỏng đoán hữu ích để thuyết phục về Điểm 0 (tương quan yếu).
Assad Ebrahim

9

Có lẽ bạn sẽ được hưởng lợi từ một công cụ thăm dò. Việc chia dữ liệu thành các deciles của tọa độ x dường như đã được thực hiện theo tinh thần đó. Với các sửa đổi được mô tả dưới đây, đó là một cách tiếp cận hoàn toàn tốt.

Nhiều phương pháp thăm dò bivariate đã được phát minh. Một điều đơn giản được đề xuất bởi John Tukey ( EDA , Addison-Wesley 1977) là "âm mưu sơ đồ lang thang" của ông. Bạn cắt tọa độ x thành các thùng, dựng một ô vuông dọc của dữ liệu y tương ứng ở vị trí trung bình của mỗi thùng và kết nối các phần chính của các ô vuông (trung vị, bản lề, v.v.) thành các đường cong (tùy ý làm mịn chúng). Các "dấu vết lang thang" này cung cấp một bức tranh về phân phối dữ liệu bivariate và cho phép đánh giá trực quan ngay lập tức về mối tương quan, tuyến tính của mối quan hệ, ngoại lệ và phân phối biên, cũng như ước lượng mạnh mẽ và đánh giá mức độ phù hợp của bất kỳ hàm hồi quy phi tuyến nào .

2k12kk=1,2,3,

Để hiển thị các quần thể bin khác nhau, chúng ta có thể làm cho mỗi chiều rộng của boxplot tỷ lệ thuận với lượng dữ liệu mà nó đại diện.

Kết quả sơ đồ lang thang kết quả sẽ trông giống như thế này. Dữ liệu, như được phát triển từ bản tóm tắt dữ liệu, được hiển thị dưới dạng các chấm màu xám trong nền. Về điều này, cốt truyện sơ đồ lang thang đã được vẽ ra, với năm dấu vết màu sắc và các ô vuông (bao gồm bất kỳ ngoại lệ nào được hiển thị) bằng màu đen và trắng.

Nhân vật

x=4x=40.074đối với những dữ liệu này) gần bằng không. Tuy nhiên, khăng khăng giải thích rằng "gần như không có tương quan" hoặc "tương quan thấp nhưng có ý nghĩa thấp" sẽ là cùng một lỗi giả mạo trong trò đùa cũ về nhà thống kê hài lòng với cái đầu trong lò nướng và chân trong hộp đá vì trung bình nhiệt độ thoải mái Đôi khi một số duy nhất sẽ không làm để mô tả tình huống.

Các công cụ thăm dò thay thế với các mục đích tương tự bao gồm các dữ liệu lượng tử cửa sổ dữ liệu và các phép hồi quy lượng tử sử dụng một loạt các lượng tử. Với sự sẵn có của phần mềm để thực hiện các tính toán này, có lẽ chúng trở nên dễ thực hiện hơn so với dấu vết sơ đồ lang thang, nhưng chúng không thích sự đơn giản trong xây dựng, dễ giải thích và khả năng ứng dụng rộng rãi.


Đoạn Rmã sau tạo ra hình và có thể được áp dụng cho dữ liệu gốc với rất ít hoặc không có thay đổi. (Bỏ qua các cảnh báo được tạo bởi bplt(được gọi bởi bxp): nó phàn nàn khi không có ngoại lệ để vẽ.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent Vui lòng đọc văn bản của bài đăng này trước khi bạn chạy mã. Đó là cảnh báo được đề cập và giải thích.
whuber

Tôi không nắm bắt được vectơ này đến từ đâu c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), điều này có được tạo ra và phụ thuộc dữ liệu ( x) không? Bạn đề cập đến 2^*(-k)nhưng điều này không liên quan.
Maximilian

@Max Vector đó tạo ra ví dụ cụ thể này.
whuber

ok, nhưng làm thế nào bạn làm thủ tục các số liệu? Điều này rõ ràng là sai:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Maximilian

@Max Tôi không thể hiểu những gì bạn có thể có nghĩa là "rõ ràng sai." Bạn không thể tham khảo mã của tôi: như một kiểm tra, tôi đã chạy lại nó và nó sao chép hình trong từng chi tiết.
whuber

6

Tôi không tin rằng binning là một cách tiếp cận khoa học cho vấn đề. Đó là mất thông tin và tùy ý. Các phương pháp xếp hạng (thứ tự; bán tổng hợp) tốt hơn nhiều và không mất thông tin. Ngay cả khi người ta đã giải quyết việc phân tách decile, phương thức này vẫn tùy ý và không thể lặp lại bởi những người khác, đơn giản vì số lượng lớn các định nghĩa được sử dụng cho các lượng tử trong trường hợp liên kết trong dữ liệu. Và như đã nói trong phần bình luận tra tấn dữ liệu hay ở trên, Howard Wainer có một bài viết hay cho thấy cách tìm các thùng có thể tạo ra một liên kết tích cực và tìm các thùng có thể tạo ra một liên kết tiêu cực, từ cùng một bộ dữ liệu:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

Đây là những gì tôi nghi ngờ. Nếu bạn chọn số lượng thùng khác nhau, bạn có thể tìm thấy mối tương quan tốt nhất để hiển thị bất cứ thứ gì đang tìm kiếm. Nhưng kết quả sẽ không thể lặp lại hoặc có giá trị khoa học. Bạn có biết bất kỳ tài nguyên giới thiệu về xếp hạng?
B Bảy

3
Điều này có vẻ như một vị trí quá cực đoan để đảm nhận. Tất nhiên các phương pháp dựa trên xếp hạng cũng mất thông tin: chúng loại bỏ tất cả thông tin về các giá trị thực tế. Vì vậy, câu hỏi liên quan đến việc mất thông tin có phải là một mối quan tâm tại sao phân tích được thực hiện? Nếu là để khám phá và khám phá, các hình thức đóng thùng được hướng dẫn khác nhau có thể làm tốt công việc trong khi thay thế mọi thứ bằng các cấp bậc có thể sẽ làm lu mờ và làm biến dạng các mối quan hệ. Nếu đó là để xác nhận hoặc kiểm tra giả thuyết thì nhận xét của bạn sẽ được áp dụng và phòng thủ chung hơn.
whuber

2
π3πY|X

2

Việc chia dữ liệu thành các decile dựa trên X quan sát ("Chất lượng điểm vào") dường như là một khái quát của một phương pháp cũ được Wald đề xuất đầu tiên và sau đó bởi những người khác trong các tình huống trong đó cả X và Y đều bị lỗi. (Wald chia dữ liệu thành hai nhóm. Nair & Shrivastava và Bartlett chia nó thành ba.) Nó được mô tả trong phần 5C của Hiểu phân tích dữ liệu mạnh mẽ và thăm dò , thay đổi nội dung bởi Hoaglin, Mosteller và Tukey (Wiley, 1983). Tuy nhiên, rất nhiều công việc về "Lỗi đo lường" hoặc "Lỗi trong các mô hình biến" đã được thực hiện kể từ đó. Các sách giáo khoa mà tôi đã xem là Lỗi đo lường: Mô hình, Phương pháp và Ứng dụng của John Buônaccorsi (Báo chí CRC,

Tình huống của bạn có thể hơi khác một chút vì biểu đồ phân tán của bạn khiến tôi nghi ngờ rằng cả hai quan sát đều là biến ngẫu nhiên và tôi không biết liệu chúng có chứa lỗi đo lường hay không. Các biến đại diện cho những gì?


Chất lượng điểm vào là số lượng cổ phiếu tăng hoặc giảm trong ngắn hạn tại một thời điểm nhất định. Động lượng ngành là thước đo "động lực" trong ngành đối với cổ phiếu tại cùng thời điểm. Giả thuyết là có một mối tương quan giữa động lực của ngành và giá tương lai của cổ phiếu.
B Bảy

1
Chúng tôi thường đặt phản hồi trên trục tung. Kiểm tra trực quan cho thấy rằng ngay cả khi có một mối tương quan thực sự, sự khác biệt trong chất lượng điểm vào khiến nó trở nên vô dụng. Nhưng vì bạn đang đối phó với giá cổ phiếu, mọi thứ thậm chí còn phức tạp hơn vì chuỗi thời gian có liên quan.
Emil Friedman

2

Tôi thấy gói localgauss rất hữu ích cho việc này. https://cran.r-project.org/web/packages/localgauss/index.html

Gói chứa

Các thói quen tính toán để ước tính và hiển thị các tham số Gaussian cục bộ. Các tham số Gaussian cục bộ rất hữu ích để mô tả đặc tính và kiểm tra sự phụ thuộc phi tuyến tính trong dữ liệu bivariate.

Thí dụ:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Kết quả:

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.