Điều gì xảy ra nếu các biến giải thích và phản ứng được sắp xếp độc lập trước khi hồi quy?


302

Giả sử chúng ta có tập dữ liệu (Xi,Yi) với điểm. Chúng tôi muốn thực hiện hồi quy tuyến tính, nhưng trước tiên, chúng tôi sắp xếp các giá trị và các giá trị độc lập với nhau, tạo thành tập dữ liệu . Có bất kỳ giải thích có ý nghĩa về hồi quy trên tập dữ liệu mới? Cái này có tên không?X inXi ( X i , Y j )Yi(Xi,Yj)

Tôi tưởng tượng đây là một câu hỏi ngớ ngẩn nên tôi xin lỗi, tôi không được đào tạo chính thức về thống kê. Trong tâm trí của tôi, điều này hoàn toàn phá hủy dữ liệu của chúng tôi và hồi quy là vô nghĩa. Nhưng người quản lý của tôi nói rằng anh ta nhận được "hồi quy tốt hơn hầu hết thời gian" khi anh ta làm điều này (ở đây "tốt hơn" có nghĩa là dễ dự đoán hơn). Tôi có cảm giác anh đang tự lừa dối mình.

EDIT: Cảm ơn bạn cho tất cả các ví dụ tốt đẹp và kiên nhẫn của bạn. Tôi đã cho anh ấy xem các ví dụ của @ RUser4512 và @gung và anh ấy vẫn trung thành. Anh ta trở nên cáu kỉnh và tôi trở nên kiệt sức. Tôi cảm thấy chán nản. Tôi có thể sẽ bắt đầu tìm kiếm công việc khác sớm.


120
Nhưng người quản lý của tôi nói rằng anh ta nhận được "hồi quy tốt hơn hầu hết thời gian" khi anh ta làm điều này. Trời ơi ...
Jake Westfall

56
Chắc chắn không có lý do gì để bạn cảm thấy xấu hổ!
Jake Westfall

36
"Khoa học là bất cứ điều gì chúng ta muốn nó trở thành." - Tiến sĩ Leo Spaceman.
Sycorax

52
Ý tưởng này phải cạnh tranh với một ý tưởng khác mà tôi đã gặp: Nếu mẫu của bạn nhỏ, chỉ cần số lượng lớn nó với một vài bản sao của cùng một dữ liệu.
Nick Cox

47
Bạn nên nói với sếp của bạn rằng bạn có một ý tưởng tốt hơn. Thay vì sử dụng dữ liệu thực tế, chỉ cần tạo dữ liệu của riêng bạn vì sẽ dễ dàng tạo mô hình hơn.
DSaxton

Câu trả lời:


147

Tôi không chắc ông chủ của bạn nghĩ "dự đoán nhiều hơn" nghĩa là gì. Nhiều người tin sai rằng giá trị thấp hơn có nghĩa là một mô hình dự đoán tốt hơn / tốt hơn. Điều đó không nhất thiết đúng (đây là một trường hợp điển hình). Tuy nhiên, việc sắp xếp độc lập cả hai biến trước sẽ đảm bảo giá trị p thấp hơn . Mặt khác, chúng ta có thể đánh giá độ chính xác dự đoán của một mô hình bằng cách so sánh các dự đoán của nó với dữ liệu mới được tạo ra bởi cùng một quy trình. Tôi làm điều đó dưới đây trong một ví dụ đơn giản (mã hóa ). ppR

options(digits=3)                       # for cleaner output
set.seed(9149)                          # this makes the example exactly reproducible

B1 = .3
N  = 50                                 # 50 data
x  = rnorm(N, mean=0, sd=1)             # standard normal X
y  = 0 + B1*x + rnorm(N, mean=0, sd=1)  # cor(x, y) = .31
sx = sort(x)                            # sorted independently
sy = sort(y)
cor(x,y)    # [1] 0.309
cor(sx,sy)  # [1] 0.993

model.u = lm(y~x)
model.s = lm(sy~sx)
summary(model.u)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.021      0.139   0.151    0.881
# x              0.340      0.151   2.251    0.029  # significant
summary(model.s)$coefficients
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)    0.162     0.0168    9.68 7.37e-13
# sx             1.094     0.0183   59.86 9.31e-47  # wildly significant

u.error = vector(length=N)              # these will hold the output
s.error = vector(length=N)
for(i in 1:N){
  new.x      = rnorm(1, mean=0, sd=1)   # data generated in exactly the same way
  new.y      = 0 + B1*x + rnorm(N, mean=0, sd=1)
  pred.u     = predict(model.u, newdata=data.frame(x=new.x))
  pred.s     = predict(model.s, newdata=data.frame(x=new.x))
  u.error[i] = abs(pred.u-new.y)        # these are the absolute values of
  s.error[i] = abs(pred.s-new.y)        #  the predictive errors
};  rm(i, new.x, new.y, pred.u, pred.s)
u.s = u.error-s.error                   # negative values means the original
                                        # yielded more accurate predictions
mean(u.error)  # [1] 1.1
mean(s.error)  # [1] 1.98
mean(u.s<0)    # [1] 0.68


windows()
  layout(matrix(1:4, nrow=2, byrow=TRUE))
  plot(x, y,   main="Original data")
  abline(model.u, col="blue")
  plot(sx, sy, main="Sorted data")
  abline(model.s, col="red")
  h.u = hist(u.error, breaks=10, plot=FALSE)
  h.s = hist(s.error, breaks=9,  plot=FALSE)
  plot(h.u, xlim=c(0,5), ylim=c(0,11), main="Histogram of prediction errors",
       xlab="Magnitude of prediction error", col=rgb(0,0,1,1/2))
  plot(h.s, col=rgb(1,0,0,1/4), add=TRUE)
  legend("topright", legend=c("original","sorted"), pch=15, 
         col=c(rgb(0,0,1,1/2),rgb(1,0,0,1/4)))
  dotchart(u.s, color=ifelse(u.s<0, "blue", "red"), lcolor="white",
           main="Difference between predictive errors")
  abline(v=0, col="gray")
  legend("topright", legend=c("u better", "s better"), pch=1, col=c("blue","red"))

nhập mô tả hình ảnh ở đây

Biểu đồ phía trên bên trái hiển thị dữ liệu gốc. Có một số mối quan hệ giữa y (viz., Tương quan là khoảng .31 .) Biểu đồ phía trên bên phải cho thấy dữ liệu trông như thế nào sau khi sắp xếp độc lập cả hai biến. Bạn có thể dễ dàng thấy rằng sức mạnh của mối tương quan đã tăng đáng kể (bây giờ là khoảng 0,99 ). Tuy nhiên, ở các ô thấp hơn, chúng tôi thấy rằng việc phân phối các lỗi dự đoán gần với 0 hơn cho mô hình được đào tạo trên dữ liệu gốc (chưa được sắp xếp). Lỗi dự báo tuyệt đối trung bình cho mô hình sử dụng dữ liệu gốc là 1.1 , trong khi đó lỗi dự đoán tuyệt đối trung bình cho mô hình được đào tạo trên dữ liệu được sắp xếp là 1,98xy.31.9901.11.98Lớn gấp hai lần lớn. Điều đó có nghĩa là các dự đoán của mô hình dữ liệu được sắp xếp nằm xa hơn các giá trị chính xác. Biểu đồ trong góc phần tư phía dưới bên phải là một dấu chấm. Nó hiển thị sự khác biệt giữa lỗi dự đoán với dữ liệu gốc và với dữ liệu được sắp xếp. Điều này cho phép bạn so sánh hai dự đoán tương ứng cho mỗi quan sát mới được mô phỏng. Các chấm màu xanh ở bên trái là thời gian khi dữ liệu gốc gần với giá trị mới và các chấm đỏ ở bên phải là thời gian khi dữ liệu được sắp xếp mang lại dự đoán tốt hơn. Có nhiều dự đoán chính xác hơn từ mô hình được đào tạo trên dữ liệu gốc 68 % thời gian. y68%


Mức độ sắp xếp sẽ gây ra những vấn đề này là một chức năng của mối quan hệ tuyến tính tồn tại trong dữ liệu của bạn. Nếu tương quan giữa y1.0 , việc sắp xếp sẽ không có hiệu lực và do đó không gây bất lợi. Mặt khác, nếu tương quan là - 1.0xy1.01.0, việc sắp xếp sẽ đảo ngược hoàn toàn mối quan hệ, làm cho mô hình càng không chính xác càng tốt. Nếu dữ liệu ban đầu hoàn toàn không tương thích, việc sắp xếp sẽ có tác động trung gian nhưng vẫn khá lớn, gây ảnh hưởng xấu đến độ chính xác dự đoán của mô hình kết quả. Vì bạn đề cập rằng dữ liệu của bạn thường tương quan với nhau, tôi nghi ngờ rằng đã cung cấp một số bảo vệ chống lại tác hại nội tại của quy trình này. Tuy nhiên, sắp xếp đầu tiên chắc chắn có hại. Để khám phá những khả năng này, chúng ta chỉ cần chạy lại đoạn mã trên với các giá trị khác nhau cho B1(sử dụng cùng một hạt giống để tái sản xuất) và kiểm tra đầu ra:

  1. B1 = -5:

    cor(x,y)                            # [1] -0.978
    summary(model.u)$coefficients[2,4]  # [1]  1.6e-34  # (i.e., the p-value)
    summary(model.s)$coefficients[2,4]  # [1]  1.82e-42
    mean(u.error)                       # [1]  7.27
    mean(s.error)                       # [1] 15.4
    mean(u.s<0)                         # [1]  0.98
  2. B1 = 0:

    cor(x,y)                            # [1] 0.0385
    summary(model.u)$coefficients[2,4]  # [1] 0.791
    summary(model.s)$coefficients[2,4]  # [1] 4.42e-36
    mean(u.error)                       # [1] 0.908
    mean(s.error)                       # [1] 2.12
    mean(u.s<0)                         # [1] 0.82
  3. B1 = 5:

    cor(x,y)                            # [1] 0.979
    summary(model.u)$coefficients[2,4]  # [1] 7.62e-35
    summary(model.s)$coefficients[2,4]  # [1] 3e-49
    mean(u.error)                       # [1] 7.55
    mean(s.error)                       # [1] 6.33
    mean(u.s<0)                         # [1] 0.44

12
Câu trả lời của bạn đưa ra một quan điểm rất tốt, nhưng có lẽ không rõ ràng như nó có thể và nên làm. Điều này không nhất thiết phải rõ ràng đối với một giáo dân (như, người quản lý của OP), tất cả những âm mưu đó ở cuối (không bao giờ để ý mã R) thực sự hiển thị và ngụ ý. IMO, câu trả lời của bạn thực sự có thể sử dụng một hoặc hai đoạn giải thích.
Ilmari Karonen 7/12/2015

3
Cảm ơn bình luận của bạn, @IlmariKaronen. Bạn có thể đề nghị những thứ để thêm? Tôi đã cố gắng để làm cho mã tự giải thích nhất có thể, và nhận xét nó rộng rãi. Nhưng tôi có thể không còn có thể nhìn thấy những điều này bằng con mắt của một người không quen thuộc với những chủ đề này. Tôi sẽ thêm một số văn bản để mô tả các ô ở phía dưới. Nếu bạn có thể nghĩ bất cứ điều gì khác, xin vui lòng cho tôi biết.
gung

13
+1 Đây vẫn là câu trả lời duy nhất giải quyết tình huống được đề xuất: khi hai biến đã thể hiện một số liên kết tích cực, tuy nhiên đó là lỗi để hồi quy các giá trị được sắp xếp độc lập. Tất cả các câu trả lời khác cho rằng không có mối liên hệ nào hoặc nó thực sự tiêu cực. Mặc dù chúng là những ví dụ điển hình, vì chúng không áp dụng nên chúng sẽ không thuyết phục. Tuy nhiên, cái mà chúng ta vẫn còn thiếu là một ví dụ thực tế trực quan ở mức độ trực quan của dữ liệu giống như dữ liệu được mô phỏng ở đây, nơi bản chất của sai lầm là rõ ràng đáng xấu hổ.
whuber

8
+1 vì không bị ảnh hưởng bởi chính thống và sử dụng "=" để gán trong R.
dsaxton

@dsaxton, <-đôi khi tôi sử dụng , nhưng mục tiêu của tôi trên CV là viết mã R càng gần mã giả càng tốt để mọi người không quen thuộc với w / R. =khá phổ biến trong các ngôn ngữ lập trình như là một toán tử gán .
gung

103

Nếu bạn muốn thuyết phục sếp của mình, bạn có thể hiển thị những gì đang xảy ra với dữ liệu mô phỏng, ngẫu nhiên, độc lập . Với r:x,ynhập mô tả hình ảnh ở đây

n <- 1000

y<- runif(n)
x <- runif(n)

linearModel <- lm(y ~ x)


x_sorted <- sort(x)
y_sorted <- sort(y)

linearModel_sorted <- lm(y_sorted ~ x_sorted)

par(mfrow = c(2,1))
plot(x,y, main = "Random data")
abline(linearModel,col = "red")


plot(x_sorted,y_sorted, main = "Random, sorted data")
abline(linearModel_sorted,col = "red")

Rõ ràng, các kết quả được sắp xếp cung cấp một hồi quy đẹp hơn nhiều. Tuy nhiên, với quy trình được sử dụng để tạo dữ liệu (hai mẫu độc lập), hoàn toàn không có khả năng người ta có thể sử dụng để dự đoán dữ liệu kia.


8
Nó gần giống như tất cả các quảng cáo trên Internet "trước vs sau" :)
Tim

Đây là một ví dụ tốt, nhưng nó không nghĩ rằng nó sẽ thuyết phục anh ta vì dữ liệu của chúng tôi có mối tương quan tích cực trước khi sắp xếp. Sắp xếp chỉ "củng cố" mối quan hệ (mặc dù không chính xác).
người dùng tùy ý

17
@arbitraryuser: Chà, dữ liệu được sắp xếp sẽ luôn hiển thị mối tương quan dương (tốt, không âm), bất kể điều gì, nếu có, tương quan với dữ liệu gốc. Nếu bạn biết rằng dữ liệu gốc luôn có mối tương quan dương, thì đó là "chính xác do tai nạn" - nhưng sau đó, tại sao thậm chí còn bận tâm kiểm tra mối tương quan, nếu bạn đã biết nó hiện diện và tích cực chưa? Bài kiểm tra mà người quản lý của bạn đang chạy giống như một "máy dò chất lượng không khí" luôn nói rằng "phát hiện không khí thoáng khí" - nó hoạt động hoàn hảo, miễn là bạn không bao giờ mang nó đi bất cứ nơi nào không có không khí dễ thở.
Ilmari Karonen 7/12/2015

2
@arbitraryuser Một ví dụ khác bạn có thể tìm thấy nhiều thuyết phục hơn là lấy x = 0: 50 và y = 0: -50, một đường hoàn hảo có độ dốc -1. Nếu bạn sắp xếp chúng, mối quan hệ sẽ biến thành một đường thẳng hoàn hảo với độ dốc 1. Nếu sự thật là các biến của bạn thay đổi hoàn toàn và bạn đưa ra một đơn thuốc chính sách dựa trên nhận thức sai lầm của bạn rằng chúng thay đổi theo thỏa thuận hoàn hảo, bạn sẽ làm chính xác điều sai.
John Rauser

99

Trực giác của bạn là chính xác: dữ liệu được sắp xếp độc lập không có ý nghĩa đáng tin cậy bởi vì đầu vào và đầu ra đang được ánh xạ ngẫu nhiên với nhau thay vì mối quan hệ được quan sát là gì.

Có một cơ hội (tốt) rằng hồi quy trên dữ liệu được sắp xếp sẽ trông đẹp, nhưng nó là vô nghĩa trong bối cảnh.

Ví dụ trực quan: Giả sử một tập dữ liệu cho một số dân. Biểu đồ của dữ liệu không bị biến đổi có thể trông giống như hàm logarit hoặc hàm năng lượng: tốc độ tăng trưởng nhanh hơn đối với trẻ em chậm chạp đối với thanh thiếu niên sau này và "không có triệu chứng" tiếp cận chiều cao tối đa của một người trẻ tuổi trở lên.(X= =mộtge,Y= =heTôight)

Nếu chúng ta sắp xếp theo thứ tự tăng dần, đồ thị có thể sẽ gần như tuyến tính. Do đó, chức năng dự đoán là mọi người phát triển cao hơn trong suốt cuộc đời của họ. Tôi sẽ không đặt cược tiền vào thuật toán dự đoán đó. x,y


25
+ 1 - nhưng tôi sẽ bỏ "về cơ bản" và nhấn mạnh lại "vô nghĩa".
whuber

12
Lưu ý rằng OP đề cập đến việc sắp xếp dữ liệu một cách độc lập thay vì xáo trộn dữ liệu . Đây là một sự khác biệt tinh tế nhưng quan trọng vì nó liên quan đến những gì "mối quan hệ" được quan sát sẽ thấy sau khi áp dụng các hoạt động nhất định.
Đức hồng y

3
Tôi bối rối bởi ví dụ bạn thêm vào. Nếu là tuổi và y là chiều cao, thì cả hai biến đã được sắp xếp: tuổi hoặc chiều cao của không ai giảm. Vì vậy, sắp xếp sẽ không có bất kỳ ảnh hưởng nào. Cc gửi @JakeWestfall, người đã nhận xét rằng anh ấy thích ví dụ này. Bạn có thể giải thích? xy
amip

12
@amoeba Tập dữ liệu tầm thường: thiếu niên trung bình, trung tâm NBA giữa 30 tuổi, phụ nữ trung bình cao tuổi. Sau khi sắp xếp thuật toán dự đoán là cái cũ nhất là cao nhất.
d0rmLife

1
@amoeba Tôi thấy làm thế nào nó có thể được giải thích như vậy, tôi sẽ làm rõ.
d0rmLife

40

Trên thực tế, hãy làm cho điều này thực sự rõ ràng và đơn giản. Giả sử tôi tiến hành một thí nghiệm trong đó tôi đo được 1 lít nước trong một thùng chứa được tiêu chuẩn hóa và tôi xem lượng nước còn lại trong bình chứa là một hàm của thời gian t i , mất nước do bay hơi:VTôitTôi

Bây giờ, giả sử tôi có được các phép đo sau theo giờ và lít, tương ứng: ( 0 , 1.0 ) , ( 1 , 0.9 ) , ( Đây rõ ràng là dữ liệu tương đối hoàn toàn (và giả thuyết). Nhưng nếu tôi là để sắp xếp thời gian và các phép đo âm lượng, tôi sẽ lấy ( 0 , 0,5 ) , ( 1 , 0,6 ) , ( 2(tTôi,VTôi)

(0,1),(1,0,9),(2,0,8),(3,0,7),(4,0,6),(5,0,5).
(0,0.5),(1,0.6),(2,0.7),(3,0.8),(4,0.9),(5,1.0).
Và kết luận từ bộ dữ liệu được sắp xếp này là khi thời gian tăng lên, thể tích nước tăng lên, và hơn nữa, bắt đầu từ 1 lít nước, bạn sẽ nhận được sau 5 giờ chờ đợi, hơn 1 lít nước. Điều đó có đáng chú ý không? Không chỉ là kết luận trái ngược với những gì dữ liệu ban đầu nói, nó còn cho thấy chúng ta đã khám phá ra vật lý mới!

5
Ví dụ trực quan tốt đẹp! Ngoại trừ dòng cuối cùng. Với dữ liệu gốc, chúng ta sẽ có được âm lượng âm theo thời gian, đây cũng là vật lý mới. Bạn không bao giờ thực sự ngoại suy một hồi quy.
Jongsma

22

Đó là một nghệ thuật thực sự và cần một sự hiểu biết thực sự về tâm lý học để có thể thuyết phục một số người về lỗi của họ. Bên cạnh tất cả các ví dụ tuyệt vời ở trên, đôi khi một chiến lược hữu ích cho thấy niềm tin của một người dẫn đến sự không nhất quán với chính mình. Hoặc thử phương pháp này. Tìm hiểu điều gì đó mà sếp của bạn tin tưởng mạnh mẽ như cách mọi người thực hiện nhiệm vụ Y không liên quan gì đến việc họ sở hữu bao nhiêu thuộc tính X. Cho thấy cách tiếp cận của sếp bạn sẽ dẫn đến kết luận về mối liên hệ chặt chẽ giữa X và Y. Tận dụng niềm tin chính trị / chủng tộc / tôn giáo.

Khuôn mặt vô sinh nên đã đủ. Thật là một ông chủ cứng đầu. Trong khi đó, đang tìm kiếm một công việc tốt hơn. Chúc may mắn.


12

Thêm một ví dụ nữa. Hãy tưởng tượng rằng bạn có hai biến số, một biến liên quan đến việc ăn sô cô la và biến thứ hai liên quan đến sức khỏe tổng thể. Bạn có một mẫu gồm hai và dữ liệu của bạn trông như dưới đây:

sô cô lakhông có hạnh phúcKhông sô cô lahạnh phúc

Mối quan hệ của sô cô la và hạnh phúc dựa trên mẫu của bạn là gì? Và bây giờ, thay đổi thứ tự của một trong các cột - mối quan hệ sau hoạt động này là gì?

Vấn đề tương tự có thể được tiếp cận khác nhau. Giả sử, bạn có một mẫu lớn hơn, với một số trường hợp và bạn đo hai biến liên tục: mức tiêu thụ sô cô la mỗi ngày (tính bằng gam) và hạnh phúc (hãy tưởng tượng rằng bạn có một số cách để đo lường nó). Nếu bạn quan tâm nếu chúng có liên quan, bạn có thể đo lường mối tương quan hoặc sử dụng mô hình hồi quy tuyến tính, nhưng đôi khi trong những trường hợp như vậy, mọi người chỉ cần phân đôi một biến và sử dụng nó như là một yếu tố nhóm vớitVIẾT SAI RỒIt

TôiXTôiY

Lưu ý rằng đôi khi chúng ta thực sự quan tâm đến việc thay đổi thứ tự các trường hợp, chúng ta làm như vậy trong các phương pháp lấy mẫu lại . Ví dụ: chúng ta có thể cố tình xáo trộn các quan sát nhiều lần để tìm hiểu điều gì đó về phân phối dữ liệu null (dữ liệu của chúng ta sẽ như thế nào nếu không có quan hệ cặp đôi) và tiếp theo chúng ta có thể so sánh nếu dữ liệu thực của chúng ta tốt hơn ngẫu nhiên xáo trộn. Những gì người quản lý của bạn làm hoàn toàn ngược lại - anh ta cố tình buộc các quan sát phải có cấu trúc nhân tạo, nơi không có cấu trúc, điều gì dẫn đến mối tương quan không có thật.


8

Một ví dụ đơn giản mà có lẽ người quản lý của bạn có thể hiểu:

Giả sử bạn có Coin Y và Coin X, và bạn lật từng cái 100 lần. Sau đó, bạn muốn dự đoán liệu việc có được một người đứng đầu với Coin X (IV) có thể tăng cơ hội nhận được một người đứng đầu với Coin Y (DV) hay không.

Nếu không sắp xếp, mối quan hệ sẽ không có gì, vì kết quả của Coin X không ảnh hưởng đến kết quả của Coin Y. Với sự sắp xếp, mối quan hệ sẽ gần như hoàn hảo.

Làm thế nào có ý nghĩa để kết luận rằng bạn có một cơ hội tốt để có được một cái đầu trên một đồng xu lật nếu bạn vừa lật một cái đầu với một đồng tiền khác nhau?


1
Cần dịch cho bất kỳ loại tiền nào ngoại trừ loại tiền bạn đang giả định. (Tôi biết đó là một sự phản đối hoàn toàn tầm thường, và thật dễ dàng để khắc phục bất kỳ vấn đề nào, nhưng đôi khi đáng nhấn mạnh rằng đây là một diễn đàn quốc tế.)
Nick Cox

8

Kỹ thuật này thực sự tuyệt vời. Tôi đang tìm đủ mọi mối quan hệ mà tôi chưa bao giờ nghi ngờ. Chẳng hạn, tôi đã không nghi ngờ rằng những con số xuất hiện trong xổ số Powerball, mà nó được YÊU CẦU là ngẫu nhiên, thực sự có tương quan cao với giá mở cửa của cổ phiếu Apple trong cùng một ngày! Các bạn, tôi nghĩ chúng ta sắp rút tiền trong thời gian lớn. :)

> powerball_last_number = scan()
1: 69 66 64 53 65 68 63 64 57 69 40 68
13: 
Read 12 items
> #Nov. 18, 14, 11, 7, 4
> #Oct. 31, 28, 24, 21, 17, 14, 10
> #These are powerball dates.  Stock opening prices 
> #are on same or preceding day.
> 
> appl_stock_open = scan()
1: 115.76  115.20 116.26  121.11  123.13 
6: 120.99  116.93  116.70  114.00  111.78
11: 111.29  110.00
13: 
Read 12 items
> hold = lm(appl_stock_open ~ powerball_last_number)
> summary(hold)


Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)           112.08555    9.45628  11.853 3.28e-07 ***
powerball_last_number   0.06451    0.15083   0.428    0.678    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.249 on 10 degrees of freedom
Multiple R-squared:  0.01796,   Adjusted R-squared:  -0.08024 
F-statistic: 0.1829 on 1 and 10 DF,  p-value: 0.6779

Hmm, dường như không có một mối quan hệ đáng kể. NHƯNG sử dụng kỹ thuật mới, cải tiến:

> 
> vastly_improved_regression = lm(sort(appl_stock_open)~sort(powerball_last_number))
> summary(vastly_improved_regression)

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 91.34418    5.36136  17.038 1.02e-08 ***
sort(powerball_last_number)  0.39815    0.08551   4.656    9e-04 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.409 on 10 degrees of freedom
Multiple R-squared:  0.6843,    Adjusted R-squared:  0.6528 
F-statistic: 21.68 on 1 and 10 DF,  p-value: 0.0008998

LƯU Ý: Đây không có nghĩa là một phân tích nghiêm trọng. Chỉ cần cho người quản lý của bạn biết rằng họ có thể tạo BẤT K Two hai biến nào có liên quan đáng kể nếu bạn sắp xếp cả hai biến.


6

Rất nhiều ví dụ truy cập tốt ở đây. Hãy để tôi chỉ thêm một đoạn về trung tâm của vấn đề.

XTôiYTôiXYTôiTôiX1Y1X2Y2XYX1Y1X1Y1 mà bạn đang theo đuổi.

Trên thực tế, hãy để tôi thêm một đoạn về lý do tại sao nó "hoạt động" là tốt.

XmộtXbXmộtXYmộtXzXYzYXmộtYmộtXzYzX1Y1


6

Trên thực tế, thử nghiệm được mô tả (nghĩa là sắp xếp các giá trị X và các giá trị Y một cách độc lập và hồi quy cái này với cái kia) DO thử nghiệm cái gì đó, giả sử rằng (X, Y) được lấy mẫu là các cặp độc lập từ phân phối bivariate. Nó không phải là một bài kiểm tra về những gì người quản lý của bạn muốn kiểm tra. Về cơ bản, nó là kiểm tra tính tuyến tính của âm mưu QQ, so sánh phân phối biên của X với phân phối biên của Ys. Cụ thể, 'dữ liệu' sẽ nằm sát một đường thẳng nếu mật độ của Xs (f (x)) có liên quan đến mật độ của Ys (g (y)) theo cách này:

đụ(x)= =g((y-một)/b)mộtb>0


4

Điều kỳ lạ là mẫu phản biện rõ ràng nhất vẫn chưa có trong số các câu trả lời ở dạng đơn giản nhất.

Y= =-X .

Y^X

Đây là một kiểu "nghịch đảo trực tiếp" của mẫu bạn có thể sẵn sàng tìm thấy ở đây.


Bạn có thể giải thích những gì khẳng định đây là một ví dụ?
whuber

Sự khẳng định của người quản lý rằng bạn có thể "có được hồi quy tốt hơn mọi lúc" bằng cách sắp xếp độc lập đầu vào và đầu ra.
KT.

Cảm ơn bạn. Tôi không thấy lý do tại sao ví dụ của bạn bác bỏ điều đó, mặc dù: trong cả hai trường hợpR2= =1

R2

1
Cũng lưu ý rằng tôi thấy lạ là bạn dường như hiểu sai ví dụ của tôi trong khi bỏ qua tất cả các câu trả lời khác ở đây. Tất cả chúng đều hiển thị các ví dụ về các mô hình phù hợp không chính xác bằng cách sử dụng phương pháp "sắp xếp", mặc dù thực tế có thể có tốt hơnR2Y= =-X

3

Bạn đúng rồi. Người quản lý của bạn sẽ tìm thấy kết quả "tốt"! Nhưng chúng là vô nghĩa. Những gì bạn nhận được khi bạn sắp xếp chúng một cách độc lập là cả hai đều tăng hoặc giảm tương tự nhau và điều này mang lại một ngữ nghĩa của một mô hình tốt. Nhưng hai biến đã bị tước bỏ mối quan hệ thực tế của họ và mô hình không chính xác.


3

x~x2xx2x s có các phân phối khác nhau.

Hồi quy tuyến tính thường ít hợp lý hơn (ngoại lệ tồn tại, xem các câu trả lời khác); nhưng hình dạng của đuôi và phân phối lỗi cho bạn biết các phân phối tương tự cách nhau bao xa.


2

Tôi có một trực giác đơn giản tại sao điều này thực sự là một ý tưởng tốt nếu chức năng là đơn điệu :

x1,x2,,xviết sai rồixTôi<xTôi+1đụ:yTôi= =đụ(xTôi)+εTôiεTôi

εTôi= =đụ(xTôi+δ)-đụ(xTôi)
δ{-Δ,-Δ+1,Δ-1,Δ}ΔVIẾT SAI RỒIΔ= =0Δ= =viết sai rồi cho đầu vào và đầu ra độc.

đụ sẽ trở nên tốt hơn trong các giả định nhẹ.

εTôi

Tái bút: Tôi thấy thật tuyệt vời khi một câu hỏi rõ ràng đơn giản có thể dẫn đến những cách thức mới thú vị về mô hình tiêu chuẩn suy nghĩ lại. Xin cảm ơn sếp!


1
xTôi+δTôi+δ<1Tôi+δ>viết sai rồi

2

Giả sử bạn có những điểm này trên một vòng tròn bán kính 5. Bạn tính tương quan:

import pandas as pd
s1 = [(-5, 0), (-4, -3), (-4, 3), (-3, -4), (-3, 4), (0, 5), (0, -5), (3, -4), (3, 4), (4, -3), (4, 3), (5, 0)]
df1 = pd.DataFrame(s1, columns=["x", "y"])
print(df1.corr())

   x  y
x  1  0
y  0  1

Sau đó, bạn sắp xếp các giá trị x và y của mình và thực hiện lại tương quan:

s2 = [(-5, -5), (-4, -4), (-4, -4), (-3, -3), (-3, -3), (0, 0), (0, 0), (3, 3), (3, 3), (4, 4), (4, 4), (5, 5)]
df2 = pd.DataFrame(s2, columns=["x", "y"])
print(df2.corr())

   x  y
x  1  1
y  1  1

Bằng thao tác này, bạn thay đổi một tập dữ liệu có tương quan 0,0 thành một với tương quan 1.0. Đó là một vấn đề.


1

Hãy để tôi chơi Advocate của Devil ở đây. Tôi nghĩ rằng nhiều câu trả lời đã đưa ra những trường hợp thuyết phục rằng quy trình của ông chủ bị nhầm lẫn về cơ bản. Đồng thời, tôi đưa ra một ví dụ ngược lại minh họa rằng ông chủ có thể đã thực sự thấy kết quả được cải thiện với sự chuyển đổi sai lầm này.

Tôi nghĩ rằng việc thừa nhận rằng quy trình này có thể đã "có hiệu quả" đối với ông chủ có thể bắt đầu một cuộc tranh luận thuyết phục hơn: Chắc chắn, nó đã có hiệu quả, nhưng chỉ trong những trường hợp may mắn này thường không giữ được. Sau đó, chúng ta có thể hiển thị - như trong câu trả lời được chấp nhận tuyệt vời - nó tệ đến mức nào khi chúng ta không may mắn. Đó là hầu hết thời gian. Trong sự cô lập, cho sếp thấy nó tệ đến mức nào thể không thuyết phục được anh ta bởi vì anh ta có thể đã thấy một trường hợp như vậy cải thiện tình hình, và con số đó lập luận ưa thích của chúng tôi phải có một lỗ hổng ở đâu đó.

Tôi đã tìm thấy dữ liệu này trực tuyến và chắc chắn, có vẻ như hồi quy được cải thiện bằng cách sắp xếp độc lập X và Y vì: a) dữ liệu có mối tương quan tích cực cao và b) OLS thực sự không hoạt động tốt với mức cực cao (cao -cung cấp) ngoại lệ. Chiều cao và cân nặng có mối tương quan là 0,19 với ngoại lệ bao gồm, 0,77 với ngoại lệ được loại trừ và 0,78 với X và Y được sắp xếp độc lập.

x <- read.csv ("https://vincentarelbundock.github.io/Rdatasets/csv/car/Davis.csv", header=TRUE)

plot (weight ~ height, data=x)

lm1 <- lm (weight ~ height, data=x)

xx <- x
xx$weight <- sort (xx$weight)
xx$height <- sort (xx$height)

plot (weight ~ height, data=xx)

lm2 <- lm (weight ~ height, data=xx)

plot (weight ~ height, data=x)
abline (lm1)
abline (lm2, col="red")

nhập mô tả hình ảnh ở đây

plot (x$height, x$weight)
points (xx$height, xx$weight, col="red")

nhập mô tả hình ảnh ở đây

Vì vậy, dường như mô hình hồi quy trên tập dữ liệu này được cải thiện bằng cách sắp xếp độc lập (đường màu đen so với màu đỏ trong biểu đồ đầu tiên) và có một mối quan hệ rõ ràng (màu đen so với màu đỏ trong biểu đồ thứ hai), do tập dữ liệu cụ thể là tương quan cao (tích cực) và có loại ngoại lệ phù hợp gây hại cho hồi quy hơn so với sự xáo trộn xảy ra khi bạn phân loại độc lập x và y.

Một lần nữa, không nói sắp xếp độc lập làm bất cứ điều gì hợp lý nói chung, cũng không phải là câu trả lời chính xác ở đây. Chỉ là ông chủ có thể đã nhìn thấy một cái gì đó như thế này xảy ra để làm việc trong những trường hợp phù hợp.


1
Có vẻ như một sự trùng hợp hoàn toàn mà bạn đã đạt được với các hệ số tương quan tương tự. Ví dụ này dường như không thể hiện bất cứ điều gì về mối quan hệ giữa dữ liệu gốc và được sắp xếp độc lập.
whuber

2
@whuber: Thế còn đồ thị thứ hai? Tôi cảm thấy rằng nếu dữ liệu gốc có tương quan cao, việc sắp xếp chúng chỉ có thể xáo trộn các giá trị một chút, về cơ bản duy trì mối quan hệ ban đầu +/-. Với một vài ngoại lệ, mọi thứ sẽ được sắp xếp lại nhiều hơn, nhưng ... Xin lỗi tôi không có các toán học để đi xa hơn thế.
Wayne

1
Tôi nghĩ rằng trực giác bạn thể hiện là chính xác, Wayne. Logic của câu hỏi - như tôi diễn giải nó - liên quan đến những gì bạn có thể nói về dữ liệu gốc dựa trên biểu đồ phân tán của các biến được sắp xếp một mình. Câu trả lời là, hoàn toàn không có gì ngoài những gì bạn có thể suy ra từ các bản phân phối riêng biệt (đơn biến) của chúng. Vấn đề là các chấm đỏ trong biểu đồ thứ hai của bạn không chỉ phù hợp với dữ liệu bạn hiển thị mà còn với tất cả số lượng lớn các hoán vị khác của dữ liệu đó - và bạn không có cách nào biết được những hoán vị đó là gì đúng một
whuber

2
@whuber Tôi nghĩ điểm khác biệt chính ở đây là OP nói rằng nó phải "phá hủy hoàn toàn" dữ liệu. Câu trả lời được chấp nhận của bạn cho thấy chi tiết như thế nào trong trường hợp này, nói chung. Bạn không thể được trao dữ liệu được xử lý theo cách này và có bất kỳ ý tưởng nào nếu kết quả sẽ có ý nghĩa. NHƯNG, cũng đúng là người quản lý trước đây có thể đã xử lý các ví dụ như ví dụ (phản đối) của tôi và thấy rằng sự chuyển đổi sai lầm này thực sự đã cải thiện kết quả. Vì vậy, chúng tôi có thể đồng ý rằng người quản lý đã nhầm lẫn về cơ bản, nhưng cũng có thể đã nhận được khá may mắn - và trong trường hợp may mắn, nó hoạt động.
Wayne

@whuber: Tôi đã chỉnh sửa phần giới thiệu cho câu trả lời của mình theo cách mà tôi nghĩ làm cho nó phù hợp với cuộc thảo luận. Tôi nghĩ rằng việc thừa nhận làm thế nào thủ tục của ông chủ có thể đã làm việc cho anh ta có thể là bước đầu tiên trong một cuộc tranh luận thuyết phục hơn với kinh nghiệm của ông chủ. Để bạn xem xét.
Wayne

-7

Nếu anh ta đã chọn trước các biến là đơn điệu, thì nó thực sự khá mạnh mẽ. Google "mô hình tuyến tính không phù hợp" và "Robin Dawes" hoặc "Howard Wainer." Dawes và Wainer nói về cách lựa chọn hệ số thay thế. John Cook có một cột ngắn ( http://www.johndcook.com/blog/2013/03/05/robustness-of-equal-weights/ ) trên đó.


4
Những gì Cook thảo luận trong bài đăng trên blog đó không giống với việc sắp xếp x và y độc lập với nhau và sau đó khớp mô hình hồi quy với các biến được sắp xếp.
gung

4
Những gì ông chủ của OP đang làm không phải là "dự đoán [ing] yhat bởi FInverse (G (x)), trong đó F và G là ecdfs của Y và X". Bạn có thể thấy các thủ tục trong mã trong câu trả lời của tôi.
gung

4
Bạn có thể 1. thêm một tài liệu tham khảo đến một bài báo cụ thể của Dawes và / hoặc Wainer, 2. làm rõ nó liên quan đến thủ tục sắp xếp của ông chủ như thế nào không? Hay chỉ là nếu giá trị của hệ số không quan trọng miễn là dấu hiệu đúng và dấu hiệu đúng theo giả định, thì thủ tục của ông chủ có đưa ra các giá trị lạ cho các hệ số không thành vấn đề?
Juho Kokkala

2
1. Các tài liệu tham khảo: - Dawes, RM "Vẻ đẹp mạnh mẽ của các mô hình tuyến tính không phù hợp trong việc ra quyết định." Amer. Thần kinh. 34, không 7 (1979): 571. - Wainer, H. "Ước tính các hệ số trong các mô hình tuyến tính: Nó không tạo ra không có gì." Tâm lý. Bò đực. 83, không 2 (1976): 213. - Dawes, RM, & Corrigan, B. "Mô hình tuyến tính trong việc ra quyết định." Tâm lý. Bull., 81 95-106 (1974) 2. Cả Dawes và Wainer đều cho thấy rằng, với dữ liệu thực và các vấn đề dự đoán thực, dự đoán Y tương lai từ X với độ lệch so với phương tiện của chúng hoặc bằng cách xếp hạng phù hợp hoạt động khá tốt, và điều này đúng hơn không nhạy cảm với độ dốc.
Bill Raynor

2
Những tài liệu tham khảo & giải thích này sẽ tốt hơn trong câu trả lời của bạn thay vì chôn vùi trong các bình luận.
Scortchi

-8

Tôi nghĩ về nó, và nghĩ rằng có một số cấu trúc ở đây dựa trên số liệu thống kê đơn hàng. Tôi đã kiểm tra và dường như mo của quản lý không phải là hạt dẻ như nó nghe

Thống kê đơn hàng Hệ số tương quan như một phép đo của Hiệp hội Tiểu thuyết với các ứng dụng để phân tích sinh học

http://www.researchgate.net/profile/weichao_Xu/publication/3320558_Order_Statistic_Correlation_Coe enough_as_a_Nigs_Association_Measousing_With_Appluggest_to_Biosignal_Analysis / links / 0912f6

Chúng tôi đề xuất một hệ số tương quan mới dựa trên thống kê đơn hàng và bất bình đẳng sắp xếp lại. Hệ số đề xuất thể hiện sự thỏa hiệp giữa hệ số tuyến tính của Pearson và hai hệ số dựa trên xếp hạng, cụ thể là Spearman's rho và Kendall's tau. Các dẫn xuất lý thuyết cho thấy rằng hệ số của chúng tôi có các tính chất cơ bản giống như ba hệ số cổ điển. Các nghiên cứu thực nghiệm dựa trên bốn mô hình và sáu mô hình sinh học cho thấy hệ số của chúng tôi hoạt động tốt hơn hai hệ số dựa trên xếp hạng khi đo các liên kết tuyến tính; trong khi đó nó cũng có thể phát hiện các hiệp hội phi tuyến đơn điệu như hai hệ số dựa trên xếp hạng. Các phân tích thống kê mở rộng cũng cho thấy rằng hệ số mới của chúng tôi có độ mạnh chống nhiễu vượt trội, độ lệch nhỏ,


14
Đây không phải là những gì câu hỏi đang mô tả. Khi dữ liệu được thay thế bằng thống kê đơn hàng, các cặp dữ liệu vẫn được kết nối như mọi khi. Câu hỏi mô tả một hoạt động phá hủy các kết nối đó, xóa sạch tất cả thông tin về phân phối chung của chúng.
whuber

Không cần thiết. Có thể xây dựng (hoặc xảy ra khi) tập dữ liệu trong đó sắp xếp độc lập không phá hủy tất cả thông tin về xác suất chung.
Daniel

5
Xin vui lòng cho chúng tôi một ví dụ rõ ràng về yêu cầu của bạn, bởi vì rất khó để thấy làm thế nào một điều như vậy thậm chí có thể về mặt toán học, ít có thể trong thực tế.
whuber

@whuber: Xin vui lòng xem câu trả lời mới của tôi, trong đó có một bộ dữ liệu thực sự thỏa mãn câu hỏi của bạn ... Tôi nghĩ vậy.
Wayne
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.