Thỏa thuận với tự kỷ là gì?


13

Để nói trước điều này, tôi có một nền tảng toán học khá sâu sắc, nhưng tôi chưa bao giờ thực sự xử lý chuỗi thời gian hay mô hình thống kê. Vì vậy, bạn không cần phải rất dịu dàng với tôi :)

Tôi đang đọc bài viết này về mô hình sử dụng năng lượng trong các tòa nhà thương mại và tác giả đưa ra tuyên bố này:

[Sự hiện diện của autocorrelation phát sinh] bởi vì mô hình đã được phát triển từ dữ liệu chuỗi thời gian sử dụng năng lượng, vốn đã tự động tương quan. Bất kỳ mô hình xác định thuần túy nào cho dữ liệu chuỗi thời gian sẽ có tự động tương quan. Tự động tương quan được tìm thấy để giảm nếu [nhiều hệ số Fourier] được đưa vào mô hình. Tuy nhiên, trong hầu hết các trường hợp, mô hình Fourier có CV thấp, do đó, mô hình có thể được chấp nhận cho các mục đích thực tế không (sic) không đòi hỏi độ chính xác cao.

0.) "Bất kỳ mô hình xác định thuần túy nào cho dữ liệu chuỗi thời gian sẽ có tự động tương quan" nghĩa là gì? Tôi có thể mơ hồ hiểu điều này có nghĩa là gì - ví dụ, làm thế nào bạn mong đợi để dự đoán điểm tiếp theo trong chuỗi thời gian của bạn nếu bạn có 0 tự động tương quan? Đây không phải là một đối số toán học, để chắc chắn, đó là lý do tại sao đây là 0 :)

1.) Tôi có ấn tượng rằng sự tự tương quan về cơ bản đã giết chết mô hình của bạn, nhưng nghĩ về nó, tôi không thể hiểu tại sao điều này lại xảy ra. Vậy tại sao autocorrelation là một điều xấu (hoặc tốt)?

2.) Giải pháp tôi đã nghe nói để xử lý sự tự tương quan là làm khác đi chuỗi thời gian. Nếu không cố gắng đọc suy nghĩ của tác giả, tại sao người ta sẽ không làm khác đi nếu sự tự kỷ không đáng kể tồn tại?

3.) Những hạn chế nào đối với tự động tương quan không đáng kể đặt trên một mô hình? Đây có phải là một giả định ở đâu đó (nghĩa là phần dư được phân phối bình thường khi mô hình hóa với hồi quy tuyến tính đơn giản)?

Dù sao, xin lỗi nếu đây là những câu hỏi cơ bản, và cảm ơn trước vì đã giúp đỡ.

Câu trả lời:


10
  1. Tôi nghĩ rằng tác giả có lẽ đang nói về phần của mô hình. Tôi lập luận điều này bởi vì tuyên bố của ông về việc thêm nhiều hệ số phạm lỗi; nếu, như tôi tin, anh ta đang lắp một mô hình phạm lỗi, sau đó thêm nhiều hệ số sẽ làm giảm sự tự động của phần dư với chi phí của CV cao hơn.

    Nếu bạn gặp khó khăn khi hình dung điều này, hãy nghĩ đến ví dụ sau: giả sử bạn có bộ dữ liệu 100 điểm sau, xuất phát từ mô hình phạm vi hai hệ số với nhiễu gaussian trắng được thêm vào:

    Điểm dữ liệu

    Biểu đồ sau đây cho thấy hai sự phù hợp: một được thực hiện với 2 hệ số phạm vi và một được thực hiện với 200 hệ số phạm vi:

    Phù hợp

    Như bạn có thể thấy, 200 hệ số phạm vi phù hợp với DATAPOINTS tốt hơn, trong khi hệ số 2 phù hợp (mô hình 'thực') phù hợp với MODEL hơn. Điều này ngụ ý rằng sự tự tương quan của phần dư của mô hình với 200 hệ số gần như chắc chắn sẽ gần bằng 0 ở mọi độ trễ so với phần dư của mô hình 2 hệ số, bởi vì mô hình có 200 hệ số phù hợp với hầu hết tất cả các điểm dữ liệu (nghĩa là phần dư sẽ được gần như tất cả các số không). Tuy nhiên, điều gì bạn sẽ nghĩ sẽ xảy ra nếu bạn rời khỏi, ví dụ, 10 datapoint ra khỏi mẫu và phù hợp với các mô hình tương tự? Mô hình 2 hệ số sẽ dự đoán tốt hơn các điểm dữ liệu bạn đã lấy ra khỏi mẫu! Do đó, nó sẽ tạo ra lỗi CV thấp hơn so với mô hình 200 hệ số; cái này gọi là quá mức. Lý do đằng sau 'ma thuật' này là bởi vì những gì CV thực sự cố gắng đo lường là lỗi dự đoán , nghĩa là mô hình của bạn dự đoán các điểm dữ liệu không có trong tập dữ liệu của bạn như thế nào.

  2. Trong bối cảnh này, tự động tương quan trên phần dư là 'xấu', bởi vì điều đó có nghĩa là bạn không mô hình hóa mối tương quan giữa các điểm dữ liệu đủ tốt. Lý do chính khiến mọi người không khác biệt loạt phim là vì họ thực sự muốn mô hình hóa quy trình cơ bản như hiện tại. Một sự khác biệt của chuỗi thời gian thường là loại bỏ các định kỳ hoặc xu hướng, nhưng nếu tính tuần hoàn hoặc xu hướng đó thực sự là những gì bạn đang cố gắng mô hình, thì việc phân biệt chúng có vẻ giống như một lựa chọn cuối cùng (hoặc một tùy chọn để mô hình hóa phần dư với một quá trình ngẫu nhiên phức tạp hơn).
  3. Điều này thực sự phụ thuộc vào khu vực bạn đang làm việc. Nó cũng có thể là một vấn đề với mô hình xác định. Tuy nhiên, tùy thuộc vào hình thức tự tương quan, có thể dễ dàng nhìn thấy khi phát sinh tự động phát sinh do, ví dụ như tiếng ồn nhấp nháy, tiếng ồn giống như ARMA hoặc nếu đó là nguồn định kỳ còn sót lại (trong trường hợp đó bạn có thể muốn tăng số lượng hệ số fourier).

Cảm ơn phản hồi của bạn và nếu bạn sẵn sàng, tôi muốn thử và tiêu hóa từng thứ một. Đối với 1.), có một cách trực quan để hiểu tại sao bao gồm nhiều hệ số Fourier hơn làm giảm tự động và tăng CV (tôi giả sử đây là CV của phần dư)?
BenDundee

1
Tôi đã thêm một ví dụ. Hy vọng nó giúp. Và vâng, anh ấy đang đề cập đến CV của phần dư.
Néstor

Ahh ok, tôi nghĩ rằng tôi thấy. Điều này liên quan đến những gì tôi sẽ hỏi liên quan đến 2. Làm thế nào một người có thể đi vá mô hình này (nói chung) để hiểu rõ hơn về mối tương quan? Bạn có thể thêm một ràng buộc về ma trận tương quan của các hệ số Fourier không?
BenDundee

1
Đó là một nhiệm vụ khó khăn mà tôi cũng vậy. Đặc biệt với các mô hình xác định định kỳ, thật khó để biết nên sử dụng loại mô hình nhiễu nào. Vấn đề lớn là bạn không biết a-prori số lượng hệ số của mô hình phạm lỗi, vì vậy chúng cũng là các biến ngẫu nhiên mà bạn phải lập mô hình. Với sự hiện diện của số lượng dữ liệu thấp, tôi chắc chắn sẽ thực hiện một bước nhảy MCMC có thể đảo ngược để mô hình hóa điều này. Tôi sẽ thử các mô hình tiếng ồn khác nhau và so sánh AIC / BIC giữa chúng. Đối với các bộ dữ liệu lớn, tuy nhiên, điều này là không khả thi.
Néstor

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.