Chuỗi thời gian nhị phân


8

Tôi có chuỗi thời gian nhị phân: Chúng tôi có 2160 dữ liệu (0 = không xảy ra, 1 = đã xảy ra) trong khoảng thời gian một giờ trong 90 ngày.

nhập mô tả hình ảnh ở đây

Tôi muốn dự báo sau 90 ngày này, trong đó 1 ngày tiếp theo sẽ xảy ra và cũng sẽ Mở rộng quy định này trong một tháng tới.


1
Bạn có thể mô tả dữ liệu của bạn chi tiết hơn? Những loại sự kiện nào nó mô tả? Những gì được biết về quá trình tạo ra dữ liệu (ví dụ: chúng ta có thể mong đợi một số loại thời vụ hoặc mẫu)? Bạn có thể gửi dữ liệu của bạn làm ví dụ?
Tim

tôi có một nghiên cứu về các điểm nhấn ở một vị trí cụ thể.1 là chúng tôi có một tai nạn trong khoảng thời gian một giờ và 0 nếu không. chúng tôi muốn dự đoán các tai nạn tiếp theo.
amin abdolahnejad

2
Bạn đang nói rằng bạn muốn dự báo sẽ mất bao lâu cho đến khi xảy ra tai nạn tiếp theo, hoặc bạn muốn dự báo khả năng xảy ra tai nạn sẽ thay đổi / không thay đổi như thế nào trong khoảng thời gian tiếp theo?
gung - Phục hồi Monica

Bạn cần cho chúng tôi biết thêm về dữ liệu và các giả định bạn sẵn sàng thực hiện. Quá trình cơ bản là gì? Có phải nó đang dần thay đổi theo thời gian? Có phải là văn phòng phẩm? Liệu nó có bộ nhớ hữu hạn?
Ghi nhớ

chúng tôi có khoảng thời gian từng giờ trong 90 ngày với 2160 dữ liệu. Tôi muốn dự đoán khoảng thời gian 2161 đến 2880 giờ có nghĩa là 30 ngày tới. Tôi muốn dự báo khi nào tai nạn tiếp theo sẽ xảy ra mà chúng tôi đã chuẩn bị cho nó .
amin abdolahnejad

Câu trả lời:


6

Một cách tiếp cận có thể giả định rằng chuỗi Bernoulli có thể được mô tả bằng một biến ngẫu nhiên Bình thường tiềm ẩn bằng cách sử dụng phép biến đổi Probit. Đó là nhận ra của bạn trong đó và . Bằng cách này, bạn có thể đặt bất kỳ cấu trúc chuỗi thời gian nào (ví dụ ARIMA) mà bạn thích trên biến của mình và sau đó sử dụng các kỹ thuật chuỗi thời gian tiêu chuẩn để dự đoán các quan sát trong tương lai (ví dụ: Holt-Winters). Có thể mã hóa một cái gì đó như thế này trong Stan hoặc JAGS, nhưng bạn có thể không nhận được những dự đoán tuyệt vời khi đưa ra quan điểm "thủy tinh tối" mà quá trình Bernoulli mang lại cho bạn về trạng thái tiềm ẩn.p t ~ Φ - 1 ( Y t ) Y ~ N ( μ , Σ ) YXtBernoulli(pt)ptΦ1(Yt)YN(μ,Σ)Y


1

Mô hình đơn giản nhất sẽ là hồi quy tuyến tính. Bạn có thể vẽ dữ liệu của mình bằng ggplot:

#for reproducing
set.seed(200)
#simple example. Assume your data is simple binomial variable with probability 0.3
data <- data.frame(time = 1:200, val=sample(c(0,1), size = 200, replace = T, prob = c(0.3, 0.7)))

#plot using ggplot and add linear regression and confidence interval
ggplot(data, aes(x = time, y=val)) + geom_smooth(method=lm) +geom_point()

#Now we can try to create linear regression
y = data$time
    x = data$val
fitData <- lm(x ~ y)
predict(fitData, newdata = data.frame(y=201:224), interval="confidence")

Đây là mô hình đơn giản nhất, có những mô hình phi tuyến tính khác, có thể phù hợp với dữ liệu của bạn hơn. Ngoài ra, hãy nhớ rằng bạn có thể phải sử dụng nhật ký ngày, để có được sự phù hợp tốt hơn. Trên các hồi quy phi tuyến tính như hồi quy đa thức, bạn có thể đọc rất nhiều ở đây

Bây giờ, nó sẽ yêu cầu phân tích bổ sung, nhưng điều cần thiết là phải xác định xem các sự kiện của bạn có độc lập hay không. Có thể, có một số loại biến gây nhiễu mà bạn có thể không tính đến. Bạn có thể muốn xem xét hồi quy tuyến tính Bayes (với điều kiện bạn có được nhiều thứ nguyên hơn chỉ là thời gian và có / không có giá trị) ở đây


tnx cho câu trả lời của bạn. Trước tiên tôi muốn dự đoán từng giờ cho ngày tiếp theo, từng giờ cho tuần tới và hor theo giờ cho tháng tiếp theo.
amin abdolahnejad 17/2/2016

Nó không thể là reg.we có mã nhị phân và mô hình đa thức cho đến mức 7 không thể cho chúng ta một sự phù hợp tốt. Chúng ta nên tập trung vào mô hình nhị phân. Mô hình markov ẩn? Nếu chúng ta có xác suất xảy ra tai nạn trong mỗi giờ trong tháng tới, nó có thể hữu ích
amin abdolahnejad 17/2/2016

3
Biến phản ứng là nhị thức. Hồi quy tuyến tính giả định lỗi bình thường. Cũng không hồi quy tuyến tính giải quyết sự tự tương quan tiềm năng trong một chuỗi thời gian. Trong khi có lẽ là một xấp xỉ thứ tự hữu ích đầu tiên, đây không phải là cách tiếp cận tốt nhất.
Dalton Hance

1
Đó là một nhận xét tốt. Làm thế nào về việc lấy chuỗi thời gian đó, nhóm dữ liệu theo giờ trong ngày (ví dụ) và sau đó lấy trung bình của nó? Xem xét nó là biến ngẫu nhiên phân phối giống hệt nhau, chúng ta không nên nhận được giá trị mong đợi, do CLT? Tôi không chắc liệu điều đó có thể được sử dụng như một công cụ dự đoán hay không, nhưng chắc chắn nó sẽ đưa ra ước tính tốt về khả năng tai nạn xảy ra vào một giờ cụ thể.
Zakkery

1
Tôi cho rằng nếu bạn nghĩ rằng có một mô hình định kỳ cho dữ liệu được mô tả theo giờ trong ngày, thì phương pháp đó có thể hoạt động. Ví dụ: nếu dữ liệu giống như 1 nếu tôi đang dùng bữa (bữa sáng, bữa trưa hoặc bữa tối) và 0 nếu không. Nhưng điều đó dường như không xảy ra trong trường hợp từ cốt truyện. Không có nhiều bằng chứng về tính tuần hoàn, nhưng có những đoạn dài 1 giây theo sau là 1 (khối màu xanh) và đoạn dài là 0 theo sau là 0. Xt=
Dalton Hance

1

Dữ liệu tai nạn? Tôi sẽ bắt đầu bằng cách giả sử có tính thời vụ hàng giờ và tính thời vụ hàng ngày. Không biết loại tai nạn, có thể bạn có thể xem xét việc phân chia hàng giờ từ Thứ Hai đến Thứ Sáu, và xử lý hàng giờ vào Thứ Bảy và Chủ Nhật riêng biệt, do đó bạn có 3 nhóm giờ, 24 (Thứ Hai), 24 (Thứ Bảy) và 24 (CN).

Giảm dữ liệu hơn nữa có thể có thể, nhưng giả sử không, chỉ lấy mức trung bình. Ví dụ: trung bình cho 3 giờ chiều Chủ nhật có thể là .3 (30% khả năng xảy ra tai nạn). Trung bình cho 4 giờ chiều có thể là .2, v.v.

Xác suất không có tai nạn xảy ra trong 3 giờ chiều hoặc 4 giờ chiều sẽ là (1-.3) (1-.2) = .56, vì vậy xác suất xảy ra tai nạn trong hai giờ này là 0,44, v.v.

Đây dường như là một nơi tốt, đơn giản để bắt đầu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.