Hồi quy logistic cho chuỗi thời gian


21

Tôi muốn sử dụng mô hình hồi quy logistic nhị phân trong bối cảnh truyền dữ liệu (chuỗi thời gian đa chiều) để dự đoán giá trị của biến phụ thuộc của dữ liệu (tức là hàng) vừa xuất hiện, dựa trên các quan sát trong quá khứ. Theo như tôi biết, hồi quy logistic thường được sử dụng để phân tích hậu biến, trong đó từng biến phụ thuộc đã được đặt (bằng cách kiểm tra hoặc theo bản chất của nghiên cứu).

Tuy nhiên, điều gì xảy ra trong trường hợp chuỗi thời gian, trong đó chúng tôi muốn đưa ra dự đoán (đang di chuyển) về biến phụ thuộc về dữ liệu lịch sử (ví dụ: trong cửa sổ thời gian của giây cuối cùng ) và dĩ nhiên, trước đó ước tính của biến phụ thuộc?t

Và nếu bạn thấy hệ thống trên theo thời gian, nó nên được xây dựng như thế nào để hồi quy hoạt động? Chúng ta phải đào tạo nó lần đầu tiên bởi nhãn, giả sử, 50 hàng đầu tiên của dữ liệu của chúng tôi (tức là thiết lập các biến phụ thuộc là 0 hoặc 1) và sau đó sử dụng các ước tính hiện tại của vector để ước tính xác suất mới của biến con người phụ thuộc 0 hoặc 1 cho dữ liệu vừa đến (tức là hàng mới vừa được thêm vào hệ thống)?β

Để làm cho vấn đề của tôi rõ ràng hơn, tôi đang cố gắng xây dựng một hệ thống phân tích một hàng dữ liệu theo từng hàng và cố gắng đưa ra dự đoán về kết quả nhị phân (biến phụ thuộc), dựa trên kiến ​​thức (quan sát hoặc ước tính) của tất cả các phụ thuộc hoặc giải thích trước đó các biến đã đến trong một cửa sổ thời gian cố định. Hệ thống của tôi là trong Rerl và sử dụng R cho suy luận.


5
bạn có thể giả định một cấu trúc tương quan trên dữ liệu của bạn? Trường hợp của bạn là trường hợp đặc biệt của GLMM với liên kết logit, nhưng cấu trúc tương quan trong dữ liệu chuỗi thời gian phải được mô hình chính xác để có câu trả lời hợp lý.
suncoolsu

1
ytyt-1

2
bạn có thể vui lòng cho một mô tả ngắn gọn về dữ liệu của bạn để tôi đưa ra một giải pháp cụ thể không? vấn đề của bạn có thể được giải quyết tương tự như stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html
suncoolsu

2
Tôi có một chuỗi thời gian lưu lượng truy cập mạng có dạng sau: Giao thức, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLpm TCP, 200.80.199.105,3523.207.216.233.144.9658.11223344.941818,62 UDP, 142.1.1.1.1 , 1751,244.72.151.2,1935, 11223344,941843,60 Tôi muốn ước tính nếu một gói (hoặc nhóm gói) là độc hại bằng cách sử dụng kiến ​​thức từ các bộ dữ liệu được gắn nhãn để xây dựng mô hình tự đào tạo. Tính trung bình mà tôi đã nói đến được áp dụng ở các số liệu trên để đưa ra mức độ tổng hợp và làm cho hệ thống thực tế hơn cho lưu lượng truy cập lớn.
Regressor

2
Điều này thực sự nghe giống như một công việc cho một máy vectơ hỗ trợ. Tui bỏ lỡ điều gì vậy? Nếu bạn thực sự lo lắng về tự động tương quan hoặc cấu trúc chuỗi thời gian của dữ liệu của mình, bạn có thể thử ARIMA và / hoặc một mô hình dọc đa cấp. Trên các mô hình dọc, tôi khuyên dùng Phân tích dữ liệu theo chiều dọc được áp dụng của Willet và Singer , trong đó trang ATS của UCLA có các ví dụ về mã R.
ashaw

Câu trả lời:


6

Có hai phương pháp để xem xét:

  1. Chỉ sử dụng các mẫu đầu vào N cuối cùng. Giả sử tín hiệu đầu vào của bạn là kích thước D, thì bạn có các mẫu N * D trên nhãn thực tế mặt đất. Bằng cách này bạn có thể đào tạo bằng cách sử dụng bất kỳ phân loại nào bạn thích, bao gồm cả hồi quy logistic. Bằng cách này, mỗi đầu ra được coi là độc lập với tất cả các đầu ra khác.

  2. Sử dụng N mẫu đầu vào cuối cùng và N đầu ra cuối cùng bạn đã tạo. Vấn đề sau đó tương tự như giải mã viterbi . Bạn có thể tạo điểm số không nhị phân dựa trên các mẫu đầu vào và kết hợp điểm của nhiều mẫu bằng bộ giải mã viterbi. Điều này tốt hơn phương pháp 1. nếu bây giờ bạn có điều gì đó về mối quan hệ tạm thời giữa các đầu ra.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.