Tự động tương quan cao khi lấy thứ tự L-th khác biệt của một chuỗi các số ngẫu nhiên độc lập


9

Để giải thích chi tiết hơn cho câu hỏi này, trước tiên tôi sẽ giải thích cách tiếp cận của mình:

  1. Tôi đã mô phỏng một chuỗi các số ngẫu nhiên độc lập .X={x1,...,xN}
  2. Sau đó tôi lấy lần chênh lệch; tức là tôi tạo các biến:L

    dX1={X(2)X(1),...,X(N)X(N1)}

    dX2={dX1(2)dX1(1),...,dX1(N1)dX1(N11)}

    ...

    dXL={dXL1(2)dXL1(1),...,dXL1(NL)dXL1(NL1)}

Tôi quan sát thấy sự tự tương quan (tuyệt đối) của tăng khi trở nên lớn hơn; ac đạt tới 0,99 cho . Tức là khi lấy thứ tự chênh lệch thứ L, chúng ta tạo ra một chuỗi các số (chuỗi) phụ thuộc cao từ một chuỗi độc lập ban đầu.dXLLL>100

Dưới đây là một số biểu đồ để minh họa các quan sát của tôi:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Những câu hỏi của tôi:

  • Có bất kỳ lý thuyết đằng sau phương pháp này, và ý nghĩa hoặc ứng dụng của nó cho nó?

  • Liệu điều này chỉ ra rằng phương pháp này khai thác các điểm yếu của trình tạo giả ngẫu nhiên (của máy tính). Tức là trình tự "ngẫu nhiên" được tạo ra không phải là ngẫu nhiên, và điều này được minh họa / chứng minh từ cách tiếp cận của tôi?

  • Chúng ta có thể khai thác tính tự tương quan cao của thứ tự chênh lệch L-th, để dự đoán số tiếp theo trong chuỗi (tức là ). Tức là nếu chúng ta có thể dự đoán số (thông qua hồi quy tuyến tính), chúng ta có thể suy ra chuỗi ước tính thông qua lấy lần tổng cộng. Đây có phải là một phương pháp khả thi?X(N+1)dXLX(i)L

Lưu ý khách quan rằng tôi đang cố gắng dự đoán , nhưng vì các số được tạo ra độc lập và ngẫu nhiên, điều này rất khó (ac thấp của ).X(N+1)N


Tôi xin lỗi. Bạn đã chỉnh sửa nó hai lần nhưng có rất nhiều điều tôi không hiểu. Tôi nghi ngờ rằng vấn đề là với trình tạo số ngẫu nhiên giả. Bạn đang chuyển đổi các số ngẫu nhiên thống nhất sang một số phân phối khác? Bạn đang lấy sự khác biệt nhưng tại sao nếu các biến được cho là độc lập? Tại sao bạn cố gắng dự đoán các số trong chuỗi? Sự khác biệt thường được thực hiện để loại bỏ xu hướng đa thức.
Michael R. Chernick

@Michael Mục tiêu của tôi là dự đoán số tiếp theo trong chuỗi, không thay đổi phân phối. Cố gắng dự đoán X (N + 1) là khó vì các số của chuỗi là độc lập và ngẫu nhiên (cũng tự động thấp). Vì vậy, tôi đã phân biệt trình tự L lần amd thấy rằng ac tăng khi L tăng, điều này khiến tôi tự hỏi điều này có nghĩa là gì và liệu nó có thể được khai thác hay không.
JohnAndrews

Tôi đã thêm một số biểu đồ để minh họa.
JohnAndrews

1
Sự khác biệt của thứ tự là sự kết hợp tuyến tính của các giá trị ban đầu trên một cửa sổ có chiều rộng , do đó, tất nhiên sẽ có mối quan hệ chặt chẽ giữa các giá trị liên tiếp của sự khác biệt. Không có cách nào để khai thác điều này, vì về cơ bản, bạn dự đoán những sai lệch nhỏ so với các giá trị bạn đã biết. LL+1
whuber

Câu trả lời:


12

Học thuyết

Nếu tự động tương quan sẽ có bất kỳ ý nghĩa nào, chúng ta phải giả sử các biến ngẫu nhiên ban đầu có cùng phương sai, bằng cách lựa chọn đơn vị đo lường phù hợp - chúng ta có thể đặt thành thống nhất. Từ công thức cho sự khác biệt hữu hạnX0,X1,,XNLth

Xi(L)=(ΔL(X))i=k=0L(1)Lk(Lk)Xi+k

với và tính độc lập của chúng tôi dễ dàng tính toán0iNLXi

(1)Var(Xi(L))=k=0L(Lk)2=(2LL)

và cho và ,0<j<LiNLj

(2)Cov(Xi(L),Xi+j(L))=(1)jk=0Lj(Lk)(Lk+j)=(1)j4L(Lj)j!Γ(L+1/2)π(L+j)!.

Chia bằng cách cung cấp cho các lag- serial tương quan . Nó là âm đối với lẻ và dương cho chẵn .(2)(1)jρjjj

Công thức của Stirling cho một xấp xỉ dễ hiểu

log(|ρj|)(j2Lj22L2+j2(j2+1)6L3j44L4+O(L5)O(j6))

Là một hàm của cường độ của nó gần bằng một đường cong Gaussian ("hình chuông"), như chúng ta mong đợi về bất kỳ quy trình dựa trên khuếch tán nào như sự khác biệt kế tiếp nhau. Đây là một âm mưu củathông quanhư là một hàm của , cho thấy mức độ tương quan nối tiếp tiếp cận nhanh như thế nào . Theo thứ tự từ trên xuống dưới, các dấu chấm đại diện chothông qua.j|ρ1||ρ5|L1|ρ1||ρ5|

Nhân vật

Kết luận

Bởi vì đây là những mối quan hệ toán học thuần túy, chúng tiết lộ rất ít về . Cụ thể, vì tất cả các khác biệt hữu hạn là kết hợp tuyến tính của các biến ban đầu, chúng không cung cấp thêm thông tin nào có thể được sử dụng để dự đoán từ .XiXN+1X0,X1,,XN

Quan sát thực tế

Khi phát triển, các hệ số trong các tổ hợp tuyến tính tăng theo cấp số nhân. Lưu ý rằng mỗi là một tổng xen kẽ: cụ thể, ở giữa tổng đó xuất hiện các hệ số tương đối lớn gần với . Xem xét dữ liệu thực tế có một chút nhiễu ngẫu nhiên. Tiếng ồn này được nhân với các hệ số nhị thức lớn này và sau đó những kết quả lớn đó gần như bị hủy bỏ bởi phép cộng và phép trừ xen kẽ. Kết quả là, tính toán sự khác biệt hữu hạn như vậy đối với lớnLXi(L)(LL/2)Lcó xu hướng xóa sạch tất cả thông tin trong dữ liệu và chỉ phản ánh một lượng nhiễu nhỏ, bao gồm lỗi đo lường và lỗi làm tròn điểm nổi. Các mẫu rõ ràng trong các khác biệt được hiển thị trong câu hỏi cho và gần như chắc chắn không cung cấp thông tin có ý nghĩa. (Các hệ số nhị thức cho có giá trị bằng và nhỏ bằng , ngụ ý lỗi điểm nổi chính xác kép sẽ chi phối tính toán.)L=100L=168L=10010291


3
Rất rõ ràng, và sau khi đọc nó hoàn toàn có ý nghĩa. Về điểm cuối cùng của bạn, thực sự tôi đã thử nghiệm nó bằng cách thêm một số nhỏ (ví dụ 0,00001) cho một lớn , và thật ngạc nhiên khi thấy rằng nó có ảnh hưởng rất lớn đến , điều này là do các hệ số lớn. Nói cách khác, người ta sẽ cần một dự báo chính xác cao để dự đoán chuỗi tiếp theo, nhưng vì không có thông tin bổ sung nào trong chuỗi cho một lớn , nên nó dường như là một nhiệm vụ bất khả thi. LXiL
JohnAndrews

3

Đây là nhiều hơn một bình luận hoặc, tốt nhất, có thể là một đầu mối tiếp theo để giải quyết câu hỏi của bạn, nhưng danh tiếng của tôi không cho phép tôi đăng bình luận.

Tôi đã sao chép thử nghiệm của bạn ở Stata bằng cách sử dụng các bản vẽ từ Bình thường tiêu chuẩn với mã sau:

clear all
set obs 100000

gen t = _n
tsset t

drawnorm x, n(100000)

forvalues i = 1(1)100 {
generate D`i' = D`i'.x
}

Nhìn vào biểu đồ tương quan của các biến khác nhau, tôi đã tự hỏi tại sao các dải tin cậy rất nhỏ. Tôi chưa bao giờ thấy các dải tin cậy nhỏ như vậy trong một biểu đồ tương quan Stata. Có ý kiến ​​gì không?

Tôi đã nghĩ rằng đây có thể là một manh mối bởi vì, với các dải tin cậy quá nhỏ, ngay cả những sự tự kỷ nhỏ xíu từ độ trễ xa nhất cũng được tính vào sự tự động tuyệt đối của bạn, nếu tôi diễn giải "tuyệt đối" một cách chính xác.

Đây là biểu đồ tương quan cho dX_10 của tôi ...

Correlogram cho dX_10

... Và đây là một lần nữa, phóng to trong 10 lần trễ đầu tiên ...

Correlogram cho dX_10 10 lần trễ đầu tiên


Nhìn vào biểu đồ của bạn, các dải tin cậy cũng nhỏ đối với độ trễ nhỏ hơn? Tôi chỉ sử dụng AC (1) của các biến khác nhau. Với tuyệt đối tôi chỉ đơn giản có nghĩa là ac âm hoặc dương.
JohnAndrews

Có, các băng tần cũng rất nhỏ cho dX_1 đến dX_9. Và, xin lỗi, tôi nghĩ rằng "tuyệt đối" bạn bằng cách nào đó có nghĩa là tổng các mối tương quan cho tất cả độ trễ.
hút

AC (1) thực sự cao hơn, chúng tôi càng khác biệt như bạn đã nói ... thú vị.
suckrates

3

Điều này được mong đợi vì sự khác biệt không độc lập với nhau. Ví dụ: tỷ lệ thuận với trong khi tỷ lệ nghịch vớiDo các định nghĩa về các phần tử liên tiếp của chia sẻ các phần tử của theo cách nghịch đảo này, chúng tôi hy vọng chúng có mối tương quan nghịch với nhau. Trong thực tế, khi chúng ta đi đến sự khác biệt bậc cao hơn , các giá trị liên tiếp chia sẻ một phần lớn hơn và cao hơn các phần tử của đi vào định nghĩa của chúng, và sự chống tương quan của chúng tăng lên. Tuy nhiên, nếu chúng ta không biết yếu tố chia sẻ (dX1(1)X(2)X(1)X(2)dX1(2)X(3)X(2)X(2).dX1XdXiXX(2)trong ví dụ của tôi) chúng tôi sẽ không thể tính toán bất kỳ sự khác biệt nào bao gồm yếu tố này. Do đó, chúng tôi không thể sử dụng các chống tương quan trong các khác biệt để dự đoán các phần tử chưa biết của nếu chúng được tạo độc lập với các phần tử đã biết.X

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.