Cạm bẫy trong phân tích chuỗi thời gian


46

Tôi chỉ bắt đầu tự học trong phân tích chuỗi thời gian. Tôi đã nhận thấy rằng có một số cạm bẫy tiềm năng không thể áp dụng cho thống kê chung. Vì vậy, xây dựng dựa trên những tội lỗi thống kê phổ biến là gì? , Tôi muốn hỏi:

Những cạm bẫy phổ biến hoặc tội lỗi thống kê trong phân tích chuỗi thời gian là gì?

Điều này được dự định như một wiki cộng đồng, một khái niệm cho mỗi câu trả lời, và xin vui lòng, không lặp lại các cạm bẫy thống kê chung hơn (hoặc nên được liệt kê) tại các tội thống kê phổ biến là gì?

Câu trả lời:


18

Ngoại suy một hồi quy tuyến tính trên một chuỗi thời gian, trong đó thời gian là một trong những biến độc lập trong hồi quy. Hồi quy tuyến tính có thể xấp xỉ một chuỗi thời gian trên thang thời gian ngắn và có thể hữu ích trong phân tích, nhưng ngoại suy một đường thẳng là ngu ngốc. (Thời gian là vô hạn và không ngừng tăng lên.)

EDIT: Trả lời câu hỏi của naught101 về "dại dột", câu trả lời của tôi có thể sai nhưng đối với tôi, hầu hết các hiện tượng trong thế giới thực không tăng hoặc giảm liên tục mãi mãi. Hầu hết các quá trình có các yếu tố hạn chế: mọi người ngừng tăng chiều cao khi có tuổi, cổ phiếu không phải lúc nào cũng tăng, dân số không thể tiêu cực, bạn không thể lấp đầy ngôi nhà của mình với một tỷ con chó con, v.v. Thời gian, không giống như hầu hết các biến độc lập xuất hiện để tâm, có sự hỗ trợ vô hạn, vì vậy bạn thực sự có thể tưởng tượng mô hình tuyến tính của mình dự đoán giá cổ phiếu của Apple 10 năm kể từ bây giờ vì 10 năm nữa chắc chắn sẽ tồn tại. (Trong khi bạn sẽ không ngoại suy một hồi quy cân nặng chiều cao để dự đoán cân nặng của những con đực trưởng thành cao 20 mét: chúng không và sẽ không tồn tại.)

Ngoài ra, chuỗi thời gian thường có các thành phần chu kỳ hoặc giả theo chu kỳ, hoặc các thành phần đi bộ ngẫu nhiên. Như IrishStat đề cập trong câu trả lời của anh ấy, bạn cần xem xét tính thời vụ (đôi khi là tính thời vụ theo nhiều thang đo thời gian), sự thay đổi mức độ (sẽ làm những điều kỳ lạ đối với hồi quy tuyến tính không tính đến chúng), v.v ... Hồi quy tuyến tính bỏ qua các chu kỳ sẽ phù hợp trong một thời gian ngắn, nhưng rất dễ gây hiểu lầm nếu bạn ngoại suy nó.

Tất nhiên, bạn có thể gặp rắc rối bất cứ khi nào bạn ngoại suy, chuỗi thời gian hay không. Nhưng đối với tôi, dường như chúng ta thường thấy ai đó ném một chuỗi thời gian (tội phạm, giá cổ phiếu, v.v.) vào Excel, thả FORECAST hoặc LINEST trên đó và dự đoán tương lai thông qua đường thẳng, như thể giá cổ phiếu sẽ tăng liên tục (hoặc giảm liên tục, bao gồm cả đi tiêu cực).


Bạn có thể mở rộng lý do tại sao nó ngu ngốc?
ness101

1
+1 cho các ví dụ tuyệt vời. Tôi đang tính toán chính xác có bao nhiêu con chó con tôi có thể phù hợp trong nhà của tôi ngay bây giờ: D
naught101

3
Đây là một minh họa tuyệt vời cho quan điểm của bạn: xkcd.com/605
Zach

1
@naught Mark Twain đã làm một công việc tuyệt vời cho thấy, bằng ngôn ngữ đơn giản nhất có thể, tại sao "dại dột" lại thích hợp để ngoại suy tuyến tính của một chuỗi thời gian.
whuber

Và đây: stats.stackexchange.com/a/13904/9007 ... Một điểm tương tự là ngoại suy xu hướng đa thức (đặc biệt là mức độ cao) hoặc bất kỳ mô hình nào khác không liên quan đến thể chất. Tôi đã viết một bài đăng trên blog rằng tại sao đây là một ý tưởng tồi , khi tôi đang tự dạy mình quãng tám.
ness101

13

Chú ý đến mối tương quan giữa hai chuỗi thời gian không cố định. (Không có gì ngạc nhiên khi họ sẽ có một hệ số tương quan cao: tìm kiếm về "tương quan không có ý nghĩa" và "hợp nhất".)

Ví dụ: trên google tương quan, chó và khuyên tai có hệ số tương quan là 0,84.

Để biết phân tích cũ hơn, hãy xem khám phá vấn đề năm 1926 của Yule


Tất nhiên không phải lúc nào cũng vậy. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
ness101

@Wayne Cảm ơn rất nhiều cho bài báo Yule. Tôi đã trích dẫn điều này từ năm 1970 và chưa bao giờ thực sự đọc nó. Nó được biết đến trong một số, dường như nhỏ, vòng tròn.
IrishStat

7

Ở cấp cao nhất, Kolmogorov xác định tính độc lập là một giả định chính trong thống kê - không có giả định, nhiều kết quả quan trọng trong thống kê không đúng, dù áp dụng cho chuỗi thời gian hay các nhiệm vụ phân tích tổng quát hơn.

Các mẫu liên tiếp hoặc gần đó trong hầu hết các tín hiệu thời gian rời rạc trong thế giới thực không độc lập, do đó, cần phải chú ý để phân tách một quá trình thành mô hình xác định và thành phần nhiễu ngẫu nhiên. Mặc dù vậy, giả định gia tăng độc lập trong phép tính ngẫu nhiên cổ điển là có vấn đề: nhớ lại giải Nobel kinh tế năm 1997, và vụ nổ LTCM năm 1998, trong đó tính cả những người đoạt giải trong số các hiệu trưởng của nó (mặc dù công bằng, người quản lý quỹ có khả năng đáng trách hơn số lượng phương pháp).


"Phân tích chuỗi thời gian" như một lĩnh vực nghiên cứu. Về cơ bản, ý tôi là bất kỳ điều gì có thể khiến ai đó mới học chuỗi thời gian (thuộc bất kỳ loại nào và bất kỳ loại phân tích nào). Tôi không tìm kiếm câu trả lời toàn diện. Kiểm tra câu hỏi tôi đã tham khảo trong câu hỏi của mình để cảm nhận về những gì tôi đang cố gắng làm ở đây.
ness101

Tôi có nghĩa là loại phân tích
alancalvitti

Tôi biết. Tôi nghĩ rằng bạn đang thiếu điểm của câu hỏi. Hãy bình luận về các vấp ngã phổ biến trong bất kỳ phân tích loại nào , về bất kỳ loại vấn đề chuỗi thời gian nào mà bạn có kinh nghiệm. Chỉ cần giữ nó cho các vấn đề cụ thể cho chuỗi thời gian.
ness101

Này @alancalvitti, ví dụ kinh tế đó nghe có vẻ thú vị. Bạn có biết một mô tả hay về nó mà chúng ta có thể liên kết từ đây không?
ness101

Tôi đã chỉnh sửa câu trả lời này để đưa nó trở lại điểm chính được trình bày (để đưa nó trở lại kiểu trả lời một điểm). Điều đó có nghĩa là loại bỏ những thứ về phân tích quang phổ. Có lẽ một cái gì đó có thể nói về điều đó trong một câu trả lời riêng biệt (mặc dù nó dường như không phải là về những cạm bẫy, cụ thể, có lẽ có những cạm bẫy liên quan đến phân tích quang phổ mà chúng ta có thể lưu ý ở đây). Các cuộc thảo luận ở trên bây giờ không có ý nghĩa gì, nhưng bạn hiểu điều đó, tôi đoán: /
naught101

2

Quá chắc chắn về kết quả mô hình của bạn bởi vì bạn sử dụng một kỹ thuật / mô hình (chẳng hạn như OLS) không tính đến sự tự tương quan của chuỗi thời gian.

Tôi không có một biểu đồ đẹp, nhưng cuốn sách "Chuỗi thời gian giới thiệu với R" (2009, Cowpertwait, et al) đưa ra một lời giải thích trực quan hợp lý: Nếu có sự tự tương quan tích cực, các giá trị trên hoặc dưới trung bình sẽ có xu hướng tồn tại và được nhóm lại với nhau trong thời gian. Điều này dẫn đến một ước tính trung bình kém hiệu quả hơn, có nghĩa là bạn cần nhiều dữ liệu hơn để ước tính giá trị trung bình với cùng độ chính xác so với khi không có tự động tương quan. Bạn thực sự có ít dữ liệu hơn bạn nghĩ.

Quá trình OLS (và do đó bạn) cho rằng không có tự động tương quan, do đó bạn cũng cho rằng ước tính của giá trị trung bình là chính xác hơn (đối với lượng dữ liệu bạn có) so với thực tế. Vì vậy, cuối cùng bạn sẽ tự tin hơn về kết quả của mình hơn bạn nên làm.

(Điều này có thể hoạt động theo cách khác cho tự tương quan âm: ước tính của bạn về giá trị trung bình thực sự hiệu quả hơn so với nó. Tôi không có gì để chứng minh điều này, nhưng tôi đề nghị rằng mối tương quan tích cực phổ biến hơn trong hầu hết thời gian thực chuỗi hơn tương quan âm.)


Một ví dụ ở đây sẽ rất tuyệt, tôi không hoàn toàn hiểu câu trả lời khi nó đứng
nè 101

Cảm ơn bạn đã chỉnh sửa @Wayne, nhưng tôi có nghĩa là một ví dụ trong thế giới thực, tốt nhất là với một số hình ảnh. Rõ ràng, những người khác cũng có thể thêm điều đó - đó là wiki cộng đồng.
ness101

1
@ hư 101: À. Hai trong số ba gợi ý của tôi mà tôi đã đưa ra ở đây dựa trên những gì tôi đã học được, nhưng không nhất thiết đủ để làm một ví dụ hay. Tôi sẽ cố gắng tìm kiếm một cái trên web.
Wayne

Đó chỉ là dữ liệu mô phỏng, nhưng câu trả lời của tôi cho một câu hỏi khác có một số mã R với mô hình phù hợp với OLS và sau đó tính toán tương quan một cách thích hợp hơn - với giá trị p cao hơn đáng kể. stats.stackexchange.com/questions/27254/
Peter Ellis

2

Tác động của dịch chuyển cấp độ, xung theo mùa và xu hướng thời gian địa phương ... ngoài các xung một lần. Thay đổi thông số theo thời gian là quan trọng để điều tra / mô hình. Những thay đổi có thể xảy ra trong phương sai của các lỗi theo thời gian phải được nghiên cứu. Cách xác định mức độ ảnh hưởng của Y đối với các giá trị đương thời và độ trễ của X. Cách xác định xem các giá trị tương lai của X có thể ảnh hưởng đến các giá trị hiện tại của Y. Cách tìm ra các ngày cụ thể trong tháng có ảnh hưởng hay không. Làm thế nào để mô hình hóa các vấn đề tần số hỗn hợp trong đó dữ liệu hàng giờ bị ảnh hưởng bởi các giá trị hàng ngày?

Naught yêu cầu tôi cung cấp thông tin / ví dụ cụ thể hơn về sự thay đổi cấp độ và xung. Cuối cùng, bây giờ tôi bao gồm một số thảo luận thêm. Một loạt trình bày một ACF cho thấy sự không cố định có hiệu lực mang lại một "triệu chứng". Một biện pháp khắc phục được đề xuất là "khác biệt" dữ liệu. Một biện pháp khắc phục bị bỏ qua là "khử" dữ liệu. Nếu một chuỗi có sự thay đổi cấp độ "chính" trong trung bình (ieintercept), acf của toàn bộ chuỗi này có thể dễ dàng bị hiểu sai để đề xuất sự khác biệt. Tôi sẽ đưa ra một ví dụ về một chuỗi thể hiện sự thay đổi cấp độ. Nếu tôi đã nhấn mạnh (mở rộng), sự khác biệt giữa hai chuỗi có nghĩa là acf của tổng số chuỗi sẽ gợi ý (không chính xác!) Sự cần thiết phải khác biệt. Các xung không được xử lý / Các mức dịch chuyển / Các xung theo mùa / Xu hướng thời gian cục bộ làm tăng phương sai của các lỗi làm giảm tầm quan trọng của cấu trúc mô hình và là nguyên nhân của các ước tính tham số thiếu sót và dự báo kém. Bây giờ đến một ví dụ. Quần quènhập mô tả hình ảnh ở đâylà một danh sách của 27 giá trị hàng tháng. Đây là biểu đồ nhập mô tả hình ảnh ở đây. Có bốn xung và 1 mức dịch chuyển VÀ KHÔNG CÓ XU HƯỚNG! nhập mô tả hình ảnh ở đâynhập mô tả hình ảnh ở đây. Phần dư từ mô hình này cho thấy một quá trình tiếng ồn trắng nhập mô tả hình ảnh ở đây. Một số (hầu hết!) Các gói dự báo thương mại và thậm chí miễn phí mang lại sự tỉnh táo sau đây do giả định mô hình xu hướng với các yếu tố mùa vụ phụ gia nhập mô tả hình ảnh ở đây. Để kết luận và để diễn giải Mark Twain. "Có vô nghĩa và có vô nghĩa nhưng vô nghĩa phi lý nhất trong tất cả chúng là vô nghĩa thống kê!" so với một hợp lý hơn nhập mô tả hình ảnh ở đây. Hi vọng điêu nay co ich !


1
Có thật không? Đây là tất cả những cạm bẫytội lỗi ? (Đọc lại phần nhấn mạnh của câu hỏi!) Có lẽ bạn có nghĩa ngược lại với những gì bạn đã viết?
whuber

Mục đích của những bình luận của tôi là chỉ ra những cạm bẫy của việc không giải trí hoặc xem xét một số cấu trúc trong thế giới thực này. Người ta cần tránh các giả định không được xác thực hợp lý nếu không người ta có thể nhận được một số kết quả rất đáng ngờ.
IrishStat

3
Tôi tập hợp đó là ý định, nhưng ở dạng hiện tại, câu trả lời của bạn rất dễ bị hiểu lầm. Ví dụ, có phải là tội lỗi khi đánh giá "tác động" của "xung một lần" hay là tội không làm điều đó? Điều này đủ mơ hồ rằng một trường hợp tốt có thể được đưa ra để giải thích! (Vâng, đó là một tội lỗi, bởi vì các xung một lần có thể chỉ là các ngoại lệ mà bạn không muốn tạo ra ảnh hưởng không đáng có và kế toán cho tất cả chúng có thể định lượng quá mức mô hình; không, chúng cần được đưa vào vì các hiệu ứng của chúng có thể kéo dài một thời gian dài và bỏ qua điều đó có thể làm sai lệch các ước tính của các tham số khác.)
whuber

@whuber Nếu các hiệu ứng của xung một lần duy trì, điều này có thể được mô hình thành một chuỗi các xung một lần tại các điểm liên tiếp. Điều này không thanh lịch như nó có thể nhưng dù sao cũng hiệu quả. Như bạn đã nói một cách khá chính xác, bạn không muốn có các giá trị sai lệch làm sai lệch các ước tính tham số của cấu trúc lặp đi lặp lại, do đó, sẽ là "tội lỗi" khi không xử lý cấu trúc xác định không xác định như xung, mức dịch chuyển, xung theo mùa và / hoặc xu hướng thời gian cục bộ.
IrishStat

Tôi nghĩ rằng đây sẽ là một câu trả lời thực sự thú vị nếu câu đầu tiên (mức dịch chuyển và xung) được mở rộng rất nhiều (với một số ví dụ), và phần còn lại đã bị loại bỏ. Heteroskedasticity sẽ làm cho một câu trả lời riêng biệt tốt.
ness101

1

Xác định Xu hướng là tăng trưởng tuyến tính theo thời gian.

Mặc dù một số xu hướng bằng cách nào đó tuyến tính (xem giá cổ phiếu Apple) và mặc dù biểu đồ chuỗi thời gian trông giống như biểu đồ đường mà bạn có thể tìm thấy hồi quy tuyến tính, hầu hết các xu hướng không phải là tuyến tính.

Có những thay đổi Bước như thay đổi khi có điều gì đó xảy ra tại một thời điểm cụ thể đã thay đổi hành vi đo lường ( "Cây cầu bị sập và không có chiếc xe nào đi qua nó kể từ đó ").

Một xu hướng phổ biến khác là "Buzz" - tăng trưởng theo cấp số nhân và giảm mạnh tương tự sau đó ( "Chiến dịch tiếp thị của chúng tôi là một thành công lớn, nhưng hiệu quả đã mất dần sau vài tuần" ).

Biết mô hình đúng (Hồi quy logistic, v.v.) của xu hướng trong chuỗi thời gian là rất quan trọng trong khả năng phát hiện nó trong dữ liệu chuỗi thời gian.


1

Ngoài một số điểm tuyệt vời đã được đề cập, tôi sẽ thêm:

  1. Không phát hiện ra chu kỳ dài hoặc tính thời vụ - bằng cách chỉ kiểm tra dữ liệu trong khoảng thời gian 'không đủ dài'
  2. Thất bại trong việc đánh giá lỗi dự báo cho các giai đoạn trước ( kiểm tra lại )
  3. Không phát hiện và đối phó với thay đổi chế độ

Những vấn đề này không liên quan đến các phương pháp thống kê liên quan mà liên quan đến thiết kế nghiên cứu, tức là bao gồm dữ liệu nào và cách đánh giá kết quả.

Phần khó khăn với điểm 1. là đảm bảo rằng chúng tôi đã quan sát một khoảng thời gian đủ của dữ liệu để đưa ra kết luận về tương lai. Trong bài giảng đầu tiên của tôi về chuỗi thời gian, giáo sư đã vẽ một đường cong xoang dài trên bảng và chỉ ra rằng các chu kỳ dài trông giống như xu hướng tuyến tính khi được quan sát qua một cửa sổ ngắn (khá đơn giản, nhưng bài học bị mắc kẹt với tôi).

Điểm 2. đặc biệt có liên quan nếu các lỗi trong mô hình của bạn có một số ý nghĩa thực tế. Trong số các lĩnh vực khác, nó đang được sử dụng rộng rãi trong Tài chính, nhưng tôi cho rằng việc đánh giá các lỗi dự báo trong các giai đoạn trước có ý nghĩa rất lớn đối với tất cả các mô hình chuỗi thời gian nơi dữ liệu cho phép.

Điểm 3. chạm một lần nữa vào chủ đề mà phần dữ liệu trong quá khứ là đại diện cho tương lai. Đây là một chủ đề phức tạp với số lượng lớn tài liệu - tôi sẽ đặt tên cho sở thích cá nhân của mình: Zucchini và MacDonald làm ví dụ.


1

Tránh răng cưa trong chuỗi thời gian lấy mẫu. Nếu bạn đang phân tích dữ liệu chuỗi thời gian được lấy mẫu theo các khoảng thời gian đều đặn, thì tốc độ lấy mẫu phải gấp đôi tần số của thành phần tần số cao nhất trong dữ liệu bạn đang lấy mẫu. Đây là lý thuyết lấy mẫu Nyquist và nó được áp dụng cho âm thanh kỹ thuật số, nhưng cũng áp dụng cho bất kỳ chuỗi thời gian nào được lấy mẫu theo định kỳ. Cách để tránh răng cưa là lọc tất cả các tần số trên tốc độ nyquist, bằng một nửa tốc độ lấy mẫu. Ví dụ, đối với âm thanh kỹ thuật số, tốc độ mẫu 48 kHz sẽ yêu cầu bộ lọc thông thấp với mức cắt dưới 24 kHz.
Hiệu ứng của răng cưa có thể được nhìn thấy khi các bánh xe dường như quay ngược lại, do hiệu ứng strobiscopic trong đó tốc độ nhấp nháy gần với tốc độ cách mạng của bánh xe. Tốc độ chậm được quan sát là một bí danh của tốc độ cách mạng thực tế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.