Thống kê nào được bảo tồn theo tổng hợp?


12

Nếu chúng ta có một chuỗi thời gian dài, độ phân giải cao, có nhiều nhiễu, thì việc tổng hợp dữ liệu thành độ phân giải thấp hơn (giả sử hàng ngày đến hàng tháng) sẽ giúp hiểu rõ hơn về những gì đang diễn ra, loại bỏ một cách hiệu quả tiếng ồn.

Tôi đã thấy ít nhất một bài báo sau đó áp dụng một số thống kê cho dữ liệu tổng hợp, bao gồm cả cho hồi quy tuyến tính trên một biến riêng biệt. Điều đó có hợp lệ không? Tôi đã nghĩ rằng quá trình tính trung bình sẽ sửa đổi kết quả một chút công bằng, do tiếng ồn giảm.r2

Nói chung, một số thống kê có thể được áp dụng cho dữ liệu chuỗi thời gian tổng hợp, còn một số khác thì không? Nếu vậy, cái nào? Những người được kết hợp tuyến tính, có thể?


Liên quan, xem ngụy biện sinh thái .
Andy W

1
liên quan đến nhận xét từ @cbeleites, tôi nghĩ rằng có một câu trả lời lý thuyết ở đây - một sự mở rộng đề xuất của bạn rằng các kết hợp tuyến tính được bảo tồn. Tuy nhiên, trong các điều khoản ứng dụng thực tế, rất khó để đưa ra kết luận chung về tính hợp lệ của một phương pháp, và cần phải có một ví dụ cụ thể.
Jonathan

Câu trả lời:


6

Tôi nghĩ rằng câu hỏi như trong tiêu đề quá rộng để được trả lời một cách hữu ích, vì vậy nó có thể sẽ phụ thuộc vào cả phương pháp tổng hợp và thống kê trong câu hỏi.

  • Điều này thậm chí sẽ áp dụng cho "trung bình": bạn có cố gắng duy trì hình dạng và cường độ tín hiệu (ví dụ: bộ lọc Savitzky-Golay) hay bạn cố gắng bảo vệ khu vực dưới tín hiệu (ví dụ: hoàng thổ)?

  • Thống kê liên quan đến tiếng ồn rõ ràng bị ảnh hưởng: đó thường là mục đích của tổng hợp.

Tôi đã thấy ít nhất một bài báo áp dụng một số thống kê cho dữ liệu tổng hợp [...] Điều đó có hợp lệ không? Tôi đã nghĩ rằng quá trình tính trung bình sẽ sửa đổi kết quả một chút công bằng, do tiếng ồn giảm.

Sửa đổi này có lẽ là mục đích của tổng hợp.

Nói chung, bạn được phép thực hiện rất nhiều thứ cho dữ liệu của mình, nhưng bạn cần phải

  • nói những gì bạn đang làm (và tốt nhất là tại sao bạn làm điều đó)
  • hiển thị chất lượng của mô hình kết quả (thử nghiệm với dữ liệu độc lập)


n


5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t . Trong trường hợp này, chúng tôi giả định rằng mỗi ngày có cùng trọng lượng, đó rõ ràng là một hạn chế. Vì vậy, chúng ta có thể giả định rằng mô hình tổng quát hơn nắm giữ:

Yt=α+βX¯t(w)+ut,(2)

với

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m bài viết này (Tôi là một trong những tác giả, xin lỗi vì phích cắm không biết xấu hổ, tôi cũng đã viết một gói midasr để ước tính và thử nghiệm hồi quy MIDAS nơi thử nghiệm này được thực hiện).

Trong cài đặt không hồi quy, có các kết quả cho thấy tập hợp có thể thay đổi các thuộc tính của chuỗi thời gian. Ví dụ: nếu bạn tổng hợp các quy trình AR (1) có bộ nhớ ngắn hạn (mối tương quan giữa hai quan sát của chuỗi thời gian sẽ nhanh chóng tắt khi khoảng cách giữa chúng tăng lên), bạn có thể có được một quy trình với bộ nhớ dài hạn.

Vì vậy, để tóm tắt câu trả lời là tính hợp lệ của việc áp dụng số liệu thống kê trên dữ liệu tổng hợp là một câu hỏi thống kê. Tùy thuộc vào mô hình, bạn có thể xây dựng một giả thuyết cho dù đó là một ứng dụng hợp lệ hay không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.