Tại sao đi bộ ngẫu nhiên xen kẽ?


27

Tôi đã quan sát thấy rằng, trung bình, giá trị tuyệt đối của hệ số tương quan Pearson là một hằng số gần với bất kỳ cặp đi bộ ngẫu nhiên độc lập nào, bất kể chiều dài đi bộ.0.560.42

Ai đó có thể giải thích hiện tượng này?

Tôi dự kiến ​​các mối tương quan sẽ nhỏ hơn khi chiều dài đi bộ tăng lên, giống như với bất kỳ chuỗi ngẫu nhiên nào.

Đối với các thí nghiệm của tôi, tôi đã sử dụng các bước đi gaussian ngẫu nhiên với bước trung bình 0 và độ lệch chuẩn 1.

CẬP NHẬT:

Tôi quên trung tâm dữ liệu, đó là lý do tại sao nó 0.56thay vì 0.42.

Đây là kịch bản Python để tính toán các mối tương quan:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

Suy nghĩ đầu tiên của tôi là khi cuộc đi bộ trở nên dài hơn, có thể nhận được các giá trị với cường độ lớn hơn và mối tương quan đang bắt đầu từ đó.
John Paul

Nhưng điều này sẽ làm việc với bất kỳ chuỗi ngẫu nhiên nào, nếu tôi hiểu bạn đúng, nhưng chỉ những bước đi ngẫu nhiên mới có mối tương quan không đổi đó.
Adam

4
Đây không chỉ là bất kỳ "chuỗi ngẫu nhiên" nào: các mối tương quan là rất cao, bởi vì mỗi thuật ngữ chỉ cách một bước so với trước đó. Cũng lưu ý rằng hệ số tương quan bạn đang tính không phải là các biến ngẫu nhiên có liên quan: đó là hệ số tương quan cho các chuỗi (được coi đơn giản là dữ liệu được ghép nối), tương đương với một công thức lớn liên quan đến nhiều bình phương và sự khác biệt của tất cả các các điều khoản trong chuỗi.
whuber

10
Bạn đang nói về mối tương quan giữa các lần đi ngẫu nhiên (xuyên suốt loạt không nằm trong một chuỗi)? Nếu vậy, đó là bởi vì các bước đi ngẫu nhiên độc lập của bạn được tích hợp nhưng không được hợp nhất, đó là một tình huống nổi tiếng nơi các mối tương quan giả sẽ xuất hiện.
Chris Haug

8
Nếu bạn có một sự khác biệt đầu tiên, bạn sẽ tìm thấy không có mối tương quan. Sự thiếu văn phòng phẩm là chìa khóa ở đây.
Paul

Câu trả lời:


24

Quá trình độc lập của bạn không tương quan! Nếu và là quãng đường ngẫu nhiên độc lập:Y tXtYt

  • Một hệ số tương quan vô điều kiện về thời gian không tồn tại. (Đừng nói về .)Đúng(X,Y)
  • Đối với bất kỳ thời điểm , Corr ( X t , Y t ) thực sự là 0.tĐúng(Xt,Yt)
  • Nhưng thống kê mẫu dựa trên mức trung bình của chuỗi thời gian sẽ không hội tụ với bất cứ điều gì! Hệ số tương quan mẫu mà bạn tính toán dựa trên trung bình nhiều quan sát theo thời gian là vô nghĩa.

Theo trực giác, bạn có thể đoán (không chính xác) rằng:

  1. Độc lập giữa hai quá trình và ngụ ý rằng chúng có mối tương quan bằng không. (Đối với hai lần đi bộ ngẫu nhiên, không tồn tại.){ Y t } Đúng ( X , Y ){Xt}{Yt}Đúng(X,Y)
  2. Chuỗi thời gian, tương quan mẫu (nghĩa là hệ số tương quan được tính bằng chuỗi thời gian, thống kê mẫu như ) sẽ hội tụ về hệ số tương quan dân số là . ^ μ X =1ρ^XYρXYTμX^= =1TΣτ= =1TXτρXYT

Vấn đề là cả hai câu này đều không đúng với các bước đi ngẫu nhiên! (Chúng đúng với các quy trình ứng xử tốt hơn.)

Đối với các quy trình không cố định:

  • Bạn có thể nói về mối tương quan giữa các quy trình và tại bất kỳ hai thời điểm cụ thể nào (ví dụ: là một tuyên bố hoàn toàn hợp lý.){ Y t } Đúng ( X 2 , Y 3 ){Xt}{Yt}Đúng(X2,Y3)
  • Nhưng thật vô nghĩa khi nói về mối tương quan giữa hai bộ phim vô điều kiện đúng thời gian! không có nghĩa được xác định rõ.Đúng(X,Y)

Những vấn đề trong trường hợp đi bộ ngẫu nhiên?

  1. Đối với một cuộc đi bộ ngẫu nhiên, những khoảnh khắc dân số vô điều kiện (nghĩa là không phụ thuộc vào thời gian ), chẳng hạn như , không tồn tại. (Trong một số ý nghĩa lỏng lẻo, chúng là vô hạn.) Tương tự, hệ số tương quan vô điều kiện giữa hai lần đi ngẫu nhiên độc lập không bằng không; thực tế nó không tồn tạiE [ X ] ρ X YtE[X]ρXY
  2. Các giả định của các định lý ergodic không áp dụng và các mức trung bình theo chuỗi thời gian khác nhau (ví dụ: ) không hội tụ về bất cứ điều gì như . T1TΣτXτT
    • Đối với một chuỗi dừng, trung bình chuỗi thời gian cuối cùng sẽ hội tụ về giá trị trung bình vô điều kiện về thời gian. Nhưng đối với một chuỗi không cố định, không có nghĩa là vô điều kiện đúng hạn!

Nếu bạn có nhiều quan sát khác nhau về hai lần đi ngẫu nhiên độc lập theo thời gian (ví dụ: , , v.v ... và , , ....) và bạn tính hệ số tương quan mẫu, bạn sẽ nhận được một số từ đến . Nhưng nó sẽ không phải là một xấp xỉ của hệ số tương quan dân số (không tồn tại).X 2 Y 1 Y 2 - 1 1X1X2Y1Y2-11

Thay vào đó, (được tính bằng cách sử dụng trung bình chuỗi thời gian từ đến ) về cơ bản sẽ là một biến ngẫu nhiên (lấy các giá trị trong ) phản ánh hai con đường cụ thể mà các bước đi ngẫu nhiên được thực hiện một cách tình cờ (tức là các đường dẫn được xác định bởi hình vẽ được vẽ từ không gian mẫu .) Nói cực kỳ lỏng lẻo (và không chính xác):t=1t=T[-1,1]wOhmρ^XY(T)t= =1t= =T[-1,1]ωΩ

  • Nếu cả hai và xảy ra đi lang thang trong cùng một hướng, bạn sẽ phát hiện một mối quan hệ tích cực giả mạo.Y tXtYt
  • Nếu và đi lang thang theo những hướng khác nhau, bạn sẽ phát hiện một mối quan hệ tiêu cực giả mạo.Y tXtYt
  • Nếu và xảy ra để đi lang thang trên mỗi đủ khác, bạn sẽ phát hiện một mối quan hệ gần bằng không.Y tXtYt

Bạn có thể Google thêm về điều này với các điều khoản spurious regression random walk.

Một bước đi ngẫu nhiên không phải là văn phòng phẩm và lấy trung bình theo thời gian sẽ không hội tụ về những gì bạn sẽ nhận được bằng cách lấy iid rút từ trong không gian mẫu . Như đã đề cập trong các nhận xét ở trên, bạn có thể có những khác biệt đầu tiên và đối với một bước đi ngẫu nhiên, quá trình đó là ổn định.ω Ω Δ x t = x t - x t - 1 { Δ x t }tωΩΔxt= =xt-xt-1{Δxt}

Ý tưởng hình ảnh lớn:

Nhiều quan sát theo thời gian KHÔNG giống như nhiều lần rút ra từ một không gian mẫu!

Hãy nhớ lại rằng một quá trình ngẫu nhiên thời gian rời rạc là một hàm của cả thời gian ( ) và một không gian mẫu .t N Ω{Xt}tNΩ

Để tính trung bình theo thời gian để hội tụ theo các kỳ vọng đối với không gian mẫu , bạn cần sự ổn địnhtính linh hoạt . Đây là một vấn đề cốt lõi trong nhiều phân tích chuỗi thời gian. Và đi bộ ngẫu nhiên không phải là một quá trình đứng yên.ΩtΩ

Kết nối với câu trả lời của WHuber:

Nếu bạn có thể lấy trung bình trên nhiều mô phỏng (nghĩa là lấy nhiều lần rút từ ) thay vì bị buộc lấy trung bình theo thời gian , một số vấn đề của bạn sẽ biến mất.tΩt

Tất nhiên, bạn có thể định nghĩa là hệ số tương quan mẫu được tính trên và và đây cũng sẽ là một quá trình ngẫu nhiên.X1...XtY1...Ytρ^XY(t)X1Giáo dụcXtY1Giáo dụcYt

Bạn có thể định nghĩa một số biến ngẫu nhiên là:Zt

Zt= =|ρ^XY(t)|

Đối với hai lần đi bộ ngẫu nhiên bắt đầu từ với số gia , bạn có thể dễ dàng tìm thấy bằng cách mô phỏng (nghĩa là lấy nhiều lần rút từ .)0N(0,1)E[Z10000]Ω

Dưới đây, tôi đã chạy mô phỏng 10.000 phép tính hệ số tương quan Pearson mẫu. Mỗi lần tôi:

  • Mô phỏng hai bước đi ngẫu nhiên dài 10.000 (với số gia được phân phối bình thường rút ra từ ).N(0,1)
  • Tính hệ số tương quan mẫu giữa chúng.

Dưới đây là biểu đồ cho thấy sự phân bố theo kinh nghiệm trên 10000 hệ số tương quan được tính toán.

nhập mô tả hình ảnh ở đây

Bạn có thể quan sát rõ ràng rằng biến ngẫu nhiên có thể ở khắp mọi nơi trong khoảng . Đối với hai đường cố định và , hệ số tương quan mẫu không hội tụ với bất cứ điều gì khi độ dài của chuỗi thời gian tăng.ρ^XY(10000)[-1,1]XY

Mặt khác, trong một thời gian cụ thể (ví dụ: ), hệ số tương quan mẫu là một biến ngẫu nhiên có giá trị trung bình hữu hạn, v.v ... Nếu tôi lấy giá trị tuyệt đối và tính giá trị trung bình trên tất cả các mô phỏng, tôi tính toán xấp xỉ 0,42. Tôi không chắc tại sao bạn muốn làm điều này hay tại sao điều này hoàn toàn có ý nghĩa ??, nhưng tất nhiên là bạn có thể.t= =10,000

Mã số:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

Vì kích thước mẫu rõ ràng là không hữu hạn, các xác nhận của bạn về số lượng khác nhau không tồn tại là khó hiểu. Thật khó để xem các biểu tượng của bạn áp dụng như thế nào cho tình huống được mô tả bởi OP.
whuber

Cỡ mẫu của bạn KHÔNG BAO GIỜ được đi đến vô cùng! Không lâu như bạn đang vẽ mẫu bằng máy tính, ( chỉ trong toán học thuần túy, bạn mới có thể đưa ra các giả định như vậy ). Và điều đó có nghĩa là gì: Bởi vì bạn có vô số điểm mà nó không hội tụ? bạn đọc những thứ đó ở đâu?
Mayou36

@whuber Hy vọng phiên bản này rõ ràng hơn một chút. Tôi hiểu rằng OP đang hỏi tại sao hệ số tương quan mẫu (dựa trên mức trung bình của chuỗi thời gian) giữa hai phân đoạn hữu hạn của bước đi ngẫu nhiên không bằng 0, ngay cả đối với chuỗi thời gian dài. Một vấn đề cơ bản là đối với một cuộc đi bộ ngẫu nhiên, các khoảnh khắc dân số khác nhau không tồn tại và trung bình chuỗi thời gian không hội tụ với bất cứ điều gì.
Matthew Gunn

Tuy nhiên, đối với cố định mọi thứ là hữu hạn. Hơn nữa, kỳ vọng của hệ số tương quan mẫu tuyệt đối sẽ hội tụ khi n tăng! Cũng lưu ý rằng câu hỏi liên quan đến giá trị tuyệt đối của hệ số đó. Kỳ vọng của nó (rõ ràng) là bằng không. nn
whuber

1
@whuber Ý bạn là chiều dài chuỗi thời gian cố định , mọi thứ đều hữu hạn? (vâng, tôi đồng ý với điều đó.) Kỳ vọng về mối tương quan mẫu là bằng không (vâng, tôi đồng ý với điều đó). Khi t tăng, mặc dù mối tương quan mẫu mặc dù không hội tụ về một điểm duy nhất. Đối với hai phân đoạn đi bộ ngẫu nhiên có độ dài tùy ý, hệ số tương quan mẫu không nằm xa mức rút ngẫu nhiên từ phân bố đồng đều trên [0, 1] (xem biểu đồ). tt
Matthew Gunn

15

Toán học cần thiết để có được một kết quả chính xác là lộn xộn, nhưng chúng ta có thể lấy được một giá trị chính xác cho hệ số tương quan bình phương dự kiến tương đối không đau. Nó giúp giải thích tại sao một giá trị gần tiếp tục hiển thị và tại sao tăng độ dài n của bước đi ngẫu nhiên sẽ không thay đổi điều này.1/2n

Có khả năng nhầm lẫn về các điều khoản tiêu chuẩn. Mối tương quan tuyệt đối được đề cập trong câu hỏi, cùng với các số liệu thống kê tạo nên nó - phương sai và hiệp phương sai - là các công thức mà người ta có thể áp dụng cho bất kỳ cặp thực hiện bước đi ngẫu nhiên nào. Câu hỏi liên quan đến những gì xảy ra khi chúng ta nhìn vào nhiều nhận thức độc lập. Đối với điều đó, chúng ta cần phải kỳ vọng vào quá trình đi bộ ngẫu nhiên.


(Chỉnh sửa)

Trước khi chúng tôi tiến hành, tôi muốn chia sẻ một số hiểu biết về đồ họa với bạn. Một cặp bước đi ngẫu nhiên độc lập là một bước đi ngẫu nhiên theo hai chiều. Chúng ta có thể vẽ đường dẫn từ từng bước ( X t , Y t ) đến X t + 1 , Y t + 1 . Nếu đường dẫn này có xu hướng đi xuống (từ trái sang phải, được vẽ trên các trục XY thông thường) thì để nghiên cứu giá trị tuyệt đối của mối tương quan , hãy phủ nhận tất cả các giá trị Y. Vẽ các bước đi trên các trục có kích thước để cung cấp cho X(X,Y)(Xt,Yt)Xt+1,Yt+1YX giá trị tương đương với độ lệch chuẩn và chồng các bình phương nhỏ nhất phù hợp của Y để X . Độ dốc của các đường này sẽ là giá trị tuyệt đối của các hệ số tương quan, luôn nằm trong khoảng từ 0 đến 1 .YYX01

Hình này cho thấy bước đi như vậy, mỗi chiều dài 960 (với sự khác biệt Tiêu chuẩn thông thường). Vòng tròn nhỏ mở đánh dấu điểm bắt đầu của họ. Quầng thâm đánh dấu vị trí cuối cùng của chúng.15960

Nhân vật

Những sườn dốc có xu hướng khá lớn. Các biểu đồ tán xạ ngẫu nhiên hoàn hảo của nhiều điểm này sẽ luôn có độ dốc rất gần với không. Nếu chúng ta phải mô tả các mô hình nổi lên ở đây, chúng ta có thể nói rằng hầu hết các bước đi ngẫu nhiên 2D dần dần di chuyển từ vị trí này sang vị trí khác. (Tuy nhiên, đây không nhất thiết là vị trí điểm bắt đầu và điểm cuối của họ!) Khoảng một nửa thời gian, sau đó, sự di chuyển đó xảy ra theo hướng chéo - và độ dốc tương ứng cao.

Phần còn lại của bài viết này phác họa một phân tích về tình huống này.


(Xtôi)(W1,W2,Giáo dục,Wn)Wtôiσ2

x= =(x1,Giáo dục,xn)

V(x)= =1nΣ(xtôi-x¯)2.

Một cách hay để tính giá trị này là lấy một nửa trung bình của tất cả các khác biệt bình phương:

V(x)= =1n(n-1)Σj>tôi(xj-xtôi)2.

xXn

E(V(X))= =1n(n-1)Σj>tôiE(Xj-Xtôi)2.

Sự khác biệt là tổng của các biến iid,

Xj-Xtôi= =Wtôi+1+Wtôi+2++Wj.

WkWkσ2

E((Wtôi+1+Wtôi+2++Wj2))= =(j-tôi)σ2.

Nó dễ dàng theo đó

E(V(X))= =1n(n-1)Σj>tôi(j-tôi)σ2= =n+16σ2.

xy

E(C(X,Y)2)= =3n6-2n5-3n2+2n480n2(n-1)2σ4.

XYn

ρ2(n)= =E(C(X,Y)2)E(V(X))2= =3403n3-2n2+3n-2n3-n.

9/400,47ρ(n)


ρ2(n)1000ρ2(n)n|ρ(n)|

Nhân vật

Đây là Rmã để sản xuất con số.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

E[ρ2]T= =100

ΩXt

1
9/40n

9/40XtYt(Xt,Yt)

2
Một phân tích tiệm cận về các vấn đề được thảo luận ở đây có thể được tìm thấy trong Phillips (1986), Định lý 1e .
Christoph Hanck
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.