Tôi là một nhà phát triển web và thống kê người mới.
Dữ liệu của tôi trông giống như thế này
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
Tôi đang cố gắng dự đoán y1 là sản phẩm của các biến x. Tuy nhiên, tôi có lý do để tin rằng có thể có độ trễ trong tác động của nhiều biến x trên y1, tức là các biến x từ tuần 1 đối với đối tượng A ảnh hưởng y1 đối với đối tượng A trong tuần 2.
Lưu ý rằng không phải tất cả các đối tượng sẽ có điểm dữ liệu cho mỗi tuần (trên thực tế hầu hết sẽ không). Các đối tượng sẽ có xu hướng có các điểm dữ liệu cho tuần 1, 2, 3, 4 sau đó thả xuống và không hiển thị lại cho đến tuần 7,8,9. Tôi sẵn sàng hạn chế phân tích của mình ở các điểm dữ liệu nơi chúng tôi có dữ liệu cho N tuần trước với giả thuyết về độ trễ.
Như tôi đã nói, tôi là người mới và không chắc chắn về cách tốt nhất để đối phó với bộ dữ liệu của mẫu này. Tôi hy vọng sẽ thực hiện phân tích này trong R, Python hoặc kết hợp cả hai. Tôi không nghĩ rằng các biến x của tuần hiện tại sẽ không có hiệu lực. Tôi nghĩ rằng chúng sẽ có một số hiệu ứng, có lẽ lớn hơn so với các tuần trước. Tôi chỉ tin rằng những tuần trước sẽ có một số hiệu quả.
Tôi hy vọng sẽ có hai đến ba tuần độ trễ. Để đưa ra một bối cảnh nhỏ, phân tích mà tôi đang cố gắng ở đây liên quan đến việc đánh giá chất lượng của lưu lượng truy cập trực tuyến. Mỗi tuần tôi nhận được điểm đánh giá chất lượng của một luồng người dùng nhất định mà tôi gửi đến một trang web nhất định. Tôi đang cố gắng tìm các số liệu thứ cấp, chẳng hạn như phân phối trình duyệt, tỷ lệ nhấp trùng lặp phần trăm, v.v ... sẽ cho phép tôi dự đoán số điểm đó sẽ đi trước thời hạn.