Chuỗi thời gian với nhiều đối tượng và nhiều biến


8

Tôi là một nhà phát triển web và thống kê người mới.

Dữ liệu của tôi trông giống như thế này

Subject  Week   x1  x2  x3  x4  x5  y1
A        1      .5  .6  .7  .8  .7  10
B        1      .3  .6  .2  .1  .3  8
C        1      .3  .1  .2  .3  .2  6  
A        2      .1  .9  1.5 .8  .7  5
B        2      .3  .6  .3  .1  .3  2
D        2      .3  .1  .4  .3  .5  10  

Tôi đang cố gắng dự đoán y1 là sản phẩm của các biến x. Tuy nhiên, tôi có lý do để tin rằng có thể có độ trễ trong tác động của nhiều biến x trên y1, tức là các biến x từ tuần 1 đối với đối tượng A ảnh hưởng y1 đối với đối tượng A trong tuần 2.

Lưu ý rằng không phải tất cả các đối tượng sẽ có điểm dữ liệu cho mỗi tuần (trên thực tế hầu hết sẽ không). Các đối tượng sẽ có xu hướng có các điểm dữ liệu cho tuần 1, 2, 3, 4 sau đó thả xuống và không hiển thị lại cho đến tuần 7,8,9. Tôi sẵn sàng hạn chế phân tích của mình ở các điểm dữ liệu nơi chúng tôi có dữ liệu cho N tuần trước với giả thuyết về độ trễ.

Như tôi đã nói, tôi là người mới và không chắc chắn về cách tốt nhất để đối phó với bộ dữ liệu của mẫu này. Tôi hy vọng sẽ thực hiện phân tích này trong R, Python hoặc kết hợp cả hai. Tôi không nghĩ rằng các biến x của tuần hiện tại sẽ không có hiệu lực. Tôi nghĩ rằng chúng sẽ có một số hiệu ứng, có lẽ lớn hơn so với các tuần trước. Tôi chỉ tin rằng những tuần trước sẽ có một số hiệu quả.

Tôi hy vọng sẽ có hai đến ba tuần độ trễ. Để đưa ra một bối cảnh nhỏ, phân tích mà tôi đang cố gắng ở đây liên quan đến việc đánh giá chất lượng của lưu lượng truy cập trực tuyến. Mỗi tuần tôi nhận được điểm đánh giá chất lượng của một luồng người dùng nhất định mà tôi gửi đến một trang web nhất định. Tôi đang cố gắng tìm các số liệu thứ cấp, chẳng hạn như phân phối trình duyệt, tỷ lệ nhấp trùng lặp phần trăm, v.v ... sẽ cho phép tôi dự đoán số điểm đó sẽ đi trước thời hạn.


Tôi dự đoán rằng đây sẽ không phải là một câu trả lời hoàn chỉnh, nhưng sẽ cung cấp cho bạn nơi để bắt đầu. Tôi sẽ bắt đầu với tài liệu trong Chương 7 / Mục 6/7/8 của cuốn sách "Mô hình thống kê Bayes" của Peter Congdon. Vấn đề của tôi liên quan đến dự đoán không gian / thời gian của các sự kiện IED và phức tạp hơn một chút so với các sự kiện của bạn nhưng tất cả đều ở đó; Tôi đang cố gắng tìm mã WinBUGS cũ của mình (mà bạn có thể làm việc lại thành triển khai R / JAGS). Tuy nhiên, có mã WinBUGS có sẵn cho các ví dụ của Congdon và họ sẽ cung cấp cho bạn một điểm khởi đầu tốt.
Aengus

Vì tôi là người mới, bạn có nghĩ rằng bạn có thể chia tay tôi ở cấp độ cao những gì tôi cần làm và điều này thể hiện ở khía cạnh phân tích nào không? Cảm ơn bạn rất nhiều và bất kỳ mã nào bạn có thể cung cấp sẽ được đánh giá cao hơn! Tôi quen thuộc với python và R.
Spencer

Bạn đang nói về độ trễ bao nhiêu? Chỉ một tuần, hay nhiều tuần? Bạn có mong đợi rằng là một hàm của s chỉ từ một tuần trước hoặc nhiều tuần trước không? Mặc dù ví dụ của bạn được trình bày rõ ràng, việc cung cấp một tập hợp các biến trong thế giới thực có thể sẽ giúp bạn có câu trả lời tốt hơn, vì người trả lời sẽ có thể thấy những gì bạn đang cố gắng làm. xyweek nx
ness101

Tôi hy vọng sẽ có 2-3 tuần độ trễ. Tôi đã chỉnh sửa câu hỏi để đưa ra một ví dụ thực tế.
Spencer

Tôi sẽ nghĩ về nó như một hồi quy đơn giản. Các biến số là x1 (t), x2 (t), ..., x5 (t) cộng với các biến bị trễ của bạn x1 (t-1), x1 (t-2), v.v. Tùy thuộc vào mức độ tinh vi bạn muốn nhận, bạn chỉ có thể đoán dự đoán độ trễ và âm mưu x1 (t-lag) so với y1 và tìm kiếm các mối quan hệ hoặc bạn có thể chạy tự động tương quan. Bạn có thể thực hiện thao tác trước rất nhanh trong R bằng cách sử dụng khung dữ liệu và bạn không có nhiều sự gia tăng độ trễ để lo lắng về. Tôi đã rời khỏi cuộc thảo luận về các chủ đề, nhưng tôi lên máy bay. Cách dễ nhất để bắt đầu với chúng là mã chúng thành các biến rời rạc.
Aengus

Câu trả lời:


1

Như tôi đã đề cập trong ghi chú của tôi ở trên, tôi sẽ coi đây là một vấn đề hồi quy. Đây là một liên kết để xây dựng, trong R, các biến lag (và dẫn) từ dữ liệu của bạn ( Đầu R ).

Bao gồm trong bài viết là một giới thiệu ngắn gọn về việc sử dụng dữ liệu kết quả trong mô hình hồi quy. Bạn cũng có thể muốn thực hiện một chút đào nền trên gói R dynlm (hồi quy tuyến tính động).


Tôi đang đọc về hồi quy tuyến tính động và nó có vẻ phù hợp với những gì tôi đang tìm kiếm. Bạn có bất kỳ đề nghị đọc tài liệu?
Spencer

Xin lỗi, không ra khỏi đầu của tôi. Bạn có thể đã biết về gói 'dlm' trong R; đây là một liên kết với một số liên kết
Aengus

0

Bạn có thể tạo các bảng trong đó y1 được dịch chuyển 0,1,2,3,4 tuần.

Sau đó, bạn chạy một phân tích về họ. Chẳng hạn, bạn có thể tạo một mạng nơ ron cố gắng dự đoán y1 từ x. Đối với một số ý tưởng, bạn có thể cung cấp cho Weka một spin.

Sau đó, bạn có một số biện pháp dự đoán y1 từ x cho mỗi độ trễ. Sử dụng điều này, bạn có thể tìm thấy độ trễ phù hợp nhất.


Ngoài ra, bạn có thể tạo một bảng bao gồm x từ tuần hiện tại, x từ tuần trước, ... và y1. Sau đó, phân tích ảnh hưởng (ví dụ PCA ) để xem tuần nào và biến nào có ảnh hưởng nhất.


Tôi không nghĩ rằng các biến x của tuần hiện tại sẽ không có hiệu lực. Tôi nghĩ rằng chúng sẽ có một số hiệu ứng, có lẽ lớn hơn so với các tuần trước. Tôi chỉ tin rằng những tuần trước sẽ có một số hiệu quả. Ngoài ra, vì tôi đã quen thuộc với R và python, tôi thích sử dụng các công cụ đó.
Spencer

@Spencer Bạn sẽ tìm thấy các gói python / R cho tất cả các công cụ trong Weka. Xem câu trả lời cập nhật.
j13r
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.