Tôi đề nghị lấy, như một điểm khởi hành, khái niệm về một quá trình Poisson đồng nhất . Đây là một quá trình điểm trên dòng (thường được nghĩ đến và được gọi là dòng "thời gian"). Các thực hiện là tập hợp các điểm. Hầu như chắc chắn, bất kỳ tập hợp giới hạn nào của số thực sẽ chỉ chứa nhiều điểm chính xác.
Các thuộc tính cơ bản được hưởng bởi quá trình này, những thuộc tính tôi sẽ sử dụng nhiều lần trong phân tích, là
( Độc lập ) Các kết quả trong bất kỳ hai tập hợp rời rạc là độc lập.
(Tính đồng nhất ) Số điểm dự kiến trong bất kỳ tập hợp có thể đo lường nào với số đo hữu hạntỷ lệ thuận với. Hằng số của tỷ lệ, , là khác không.A|A||A|λ
Tất cả mọi thứ chảy từ các tính chất này, như chúng ta sẽ thấy.
Thời gian chờ đợi
Hãy nghiên cứu "thời gian chờ" của quá trình này. Cho thời gian bắt đầu và thời lượng đã trôi qua , hãy để là cơ hội không có điểm nào xảy ra giữa và : nghĩa là trong khoảng . Hãy xem xét hai các khoảng liền kề, một từ đến và một từ đến . Bằng sự độc lập, cơ hội không có điểm nào trong liên minh của họ là sản phẩm của cơ hội không có điểm nào ở đầu và cơ hội là không có điểm nào trong giây:st≥0S(s,t)ss+t(s,s+t]rr+sr+sr+s+t
S(r,s+t)=S(r,s)S(r+s,t).(1)
Theo tính đồng nhất, những cơ hội này vẫn giữ nguyên khi chúng ta trượt các khoảng xung quanh. Nghĩa là với mọi , . Cụ thể, chúng tôi luôn có thể lấy để có đượcsS(r,t)=S(r+s,t)r=−s
S(r,t)=S(0,t)=S(t)
cho tất cả , cho phép chúng ta bỏ sự phụ thuộc rõ ràng vào trong ký hiệu. Cắm cái này vào sẽ chorr(1)
S(s+t)=S(s)S(t).(2)
Tính đồng nhất làm cho rõ ràng phải liên tục (thực tế, khác biệt). Người ta biết rằng các giải pháp duy nhất cho là theo cấp số nhân. Một cách đơn giản để thấy điều này là xem xét rằng logarit của là tuyến tính và, vì , do đó phải có một số màS(2)SS(0)=1κ
log(S(t))=κt.
Vì phải giảm khi thời gian tiếp tục, . Ergo , tất cả các giải pháp đều có dạngSκ<0
S(t)=e−κt.
Có khả năng là không có điểm nào xảy ra trong bất kỳ khoảng thời gian xác định nào của chiều dài .t
Triệu hồi theo cấp số nhân
Sửa một khoảng; nhờ tính đồng nhất, chúng ta có thể giả sử nó bắt đầu từ và kết thúc (nói) tại . Hầu như chắc chắn chỉ có hữu hạn nhiều điểm của quá trình này trong khoảng , cho phép chúng tôi để đặt hàng họ . là một hiện thực của một biến ngẫu nhiên chỉnh bởi : nghĩa là0b(0,b]0<t1<t2<⋯<tnt1T1S
Pr(T1≤t)=1−Pr(T1>t)=1−S(t)=1−e−κt.
T2 tương tự là một biến ngẫu nhiên độc lập , trong đó cũng chịu sự chi phối của , từ đóT2−T1S
Pr(T2≤T1+t)=1−S(t)=1−e−κt,
và tương tự cho còn lại . Điều này chứng tỏ rằng chính xác như được mô tả trong câu hỏi: đó là số "tổng số mũ" lớn nhất phù hợp với khoảng . Đây là một nhận thức của biến ngẫu nhiênTin(0,b]
N(0,b)=max{i|T1+T2+⋯+Ti≤b}.
Phân phối Poisson
Đặt là một số nguyên. Cơ hội, , có chính xác điểm trong khoảng bao nhiêu? Tôi sẽ suy ra câu trả lời từ thuộc tính ergodic của quy trình Poisson, mà tôi cho là trực quan: bởi vì quy trình trong khoảng đơn vị giống như (và độc lập với) quy trình trong bất kỳ khoảng đơn vị nào , chúng tôi có thể suy ra các thuộc tính của quy trình bằng cách thay đổi cho một nhận thức duy nhất và nghiên cứu các mẫu điểm xuất hiện. Cụ thể, phải bằng tỷ lệ giới hạn thời gian mà số điểmk≥0pkk[0,1][0,1][t−1,t]t pkN(t)=N(t−1,t)trong khoảng bằng . Chúng ta có thể biểu thị chính thức điều này bằng cách sử dụng hàm chỉ thị bằng khi đối số của nó là đúng và bằng :[t−1,t]kI10
pk=limx→∞1x−1∫x1I(N(t)=k)dt.
Tích phân là tổng thời lượng giữa và khi khoảng chứa chính xác điểm, trong khi mẫu số của phân số tất nhiên là tổng thời gian trôi qua từ đến .1x[t−1,t]k1x
Đây là một âm mưu của cho một lần thực hiện quy trình Poisson với tỷ lệ . Các đường ngang màu trắng đánh dấu các giá trị trên trục tung, kéo dài từ đến . Các đường thẳng đứng màu xám hiển thị thời gian tại đó các điểm xảy ra trong nhận thức này. Các đường thẳng đứng màu xanh chấm chấm cho thấy các điểm giống nhau đã dịch chuyển một đơn vị sang phải. Đường cong rắn màu đỏ vẽ đồ thị bắt đầu từ . (Nó kéo dài vô tận về phía bên phải nhưng không phải tất cả đều có thể được rút ra!)N(t)λ=2.5k=1,2,304N(t)t=1
N(1)=4 vì bốn điểm (đường màu xám) xuất hiện trong đơn vị thời gian đầu tiên, . Cốt truyện của sau đó tăng lên bởi một đơn vị mỗi khi một dòng màu xám đang gặp phải di chuyển trái sang phải, vì đây là khi khoảng nhặt điểm đó. Nó rơi bởi một đơn vị mỗi khi một dòng màu xanh là gặp phải, vì đây là những điều tương tự như mất giá trị từ khoảng .[0,1]N(t)t[t−1,t]tt−1[t−1,t]
Tỷ lệ thời gian ở mỗi độ cao ước tính , cơ hội cho bất kỳ khoảng đơn vị nào chứa chính xác điểm.kpkk
Giả sử khoảng chứa điểm. Khi chúng ta trượt nó sang bên phải, hãy theo dõi các điểm mới mà nó nhặt được và các điểm cũ thả ra. Hai quan hệ đơn giản xác định mọi thứ:[t−1,t]k
Giữa và (đối với ), số điểm mới dự kiến là . (Đó là sự đồng nhất.)tt+dtdt≥0λdt
Tuy nhiên, số điểm bị mất dự kiến là vì có điểm nằm ngẫu nhiên trong khoảng. (Điều này cũng vậy, là do tính đồng nhất.)kdtk
Hầu như chắc chắn nhiều nhất một điểm được thêm hoặc mất bất cứ lúc nào. (Nếu không, sẽ có một mức dương thấp hơn ràng buộc với khả năng hai hoặc nhiều điểm xuất hiện trong các khoảng nhỏ tùy ý , nhưng vì số điểm dự kiến trong các khoảng đó chỉ là - trong đó phát triển nhỏ dần với nhỏ - điều này là không thể.) Theo đó, chỉ có hai chuyển đổi có cơ hội khác không xảy ra: từ điểm đến điểm và từ điểm đến điểm. Tỷ lệ tức thời của họ là[t,t+dt]λdtdtkk+1kk−1
τ(k→k+1)=limdt→0+λdtdt=λ
và, nếu ,k≥1
τ(k→k−1)=limdt→0+kdtdt=k.
Điều này có thể trông phức tạp, vì nó thiết lập một hệ phương trình vi phân cho vô số xác suất . Tuy nhiên, vì quá trình đồng nhất nên các xác suất này không thay đổi.pk
Nhìn đầu tiên vào trường hợp . Tốc độ dự kiến mà thay đổi (cụ thể là 0) là tốc độ chuyển đổi dự kiến từ các trạng thái có trừ đi tốc độ chuyển đổi dự kiến sang trạng thái có . Do đó, nhờ các mối quan hệ đơn giản (1) và (2),k=0p01→0k=1 0→1k=1
(1)p1−(λ)p0=0.
Điều này cho phép chúng tôi tìm theo :p1p0
p1=λp0.(3)
Bây giờ hãy xem xét tình hình chung . Có bốn chuyển đổi có khả năng thay đổi , tất cả đều phải cân bằng trong kỳ vọng : và làm cho nó giảm, trong khi và tăng . Do đó, một lần nữa sử dụng các quan hệ đơn giản (1) và (2) để tính tỷ lệ tức thời,k>0pkk→k+1k→k−1k+1→kk−1→k
[(λ)pk−1−(k)pk]+[(k+1)pk+1−(λ)pk]=0.
Chúng tôi có thể giả định rằng thuật ngữ đầu tiên trong ngoặc cân bằng (điều chúng tôi vừa trình bày cho trường hợp ), do đó tự động cân bằng thuật ngữ thứ hai trong ngoặc và dễ dàng đưa ra giải phápk=0
pk+1=λk+1pk.(4)
Công thức và xác định tất cả theo : giải pháp là(3)(4)pkp0
pk=p0λkk!.(5)
(Chứng minh: công thức này thỏa mãn điều kiện ban đầu cũng như đệ quy .)(3)(4)
Kết nối giữa các tham số mũ và Poisson
Có hai cách để tìm . p0Đầu tiên, chúng tôi có thể khai thác những gì chúng tôi đã học trước đây về thời gian chờ theo cấp số nhân: là cơ hội để một biến số mũ của tham số vượt quá . Đây làp0κ 1
p0=e−κ.(6)
Thứ hai là thực tế là xác suất tổng hợp thành sự thống nhất, từ đó
1=∑k=0∞p0λkk!=p0∑k=0∞λkk!=p0eλ.
vì thế
p0=e−λ(7)
là giá trị duy nhất hoạt động. Do đó hiện hoàn toàn rõ ràng:(5)
pk=e−λλkk!.
Đây là bản phân phối Poisson .
Tương đương và cho thấy rằng(6)(7)
κ=λ.
Điều này liên quan rõ ràng đến tham số của thời gian chờ theo hàm mũ với tham số của phân phối Poisson.
Mô phỏng để hiểu rõ hơn
Hình đầu tiên không hiển thị khoảng thời gian đủ dài để ước tính chính xác . Tuy nhiên, hãy xem xét một phần nhận ra dài hơn hàng trăm lần:pkN(t)
(Các đường thẳng đứng không còn được vẽ nữa, vì chúng rất nhiều.)
Dưới đây là tỷ lệ thời gian dành cho mỗi . Bên dưới chúng là các tỷ lệ cho phân phối Poisson :k(2.5)
0 1 2 3 4 5 6 7 8 9
y 0.0745 0.2068 0.2637 0.2215 0.1290 0.0660 0.0235 0.0128 0.0016 6e-04
fit 0.0821 0.2052 0.2565 0.2138 0.1336 0.0668 0.0278 0.0099 0.0031 9e-04
Thỏa thuận là rõ ràng - mặc dù vẫn chưa hoàn hảo, bởi vì đây vẫn chỉ là một phân đoạn ban đầu ngắn của việc thực hiện.
Đây là R
mã được sử dụng để sản xuất các số liệu. Thử nghiệm với lambda
và n
để có được cảm nhận về phân tích này.
lambda <- 2.5 # Poisson intensity
n <- 1000 # Number of points to realize
x <- cumsum(rexp(n, lambda))# Accumulate the waiting times
# Compute the proportion of times for each `k` and compare to the Poisson distribution.
f <- ecdf(x) # The ECDF does the work of computing N(t)
b <- max(x)
u <- seq(1, b, length.out=10*n)
y <- table(round(n*(f(u) - f(u-1)), 4))
y <- y / sum(y)
fit <- dpois(as.numeric(names(y)), lambda)
round(rbind(y, fit), 4)
# Plot N(t)
y.max <- max(as.numeric(names(y)))
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), 0,b, ylim=c(0, y.max*1.01),
n=max(10001, 10*n), xlab="t", ylab="", col="#00000080",
yaxp=c(0, y.max, y.max), bty="n", yaxt="n", yaxs="i")
rect(0, 0, b, y.max, col="#f4f4f4", border=NA)
abline(h=0:y.max, col="White")
if (n < 1000) {
abline(v=x, lty=1, col="Gray")
abline(v=x[x <= b-1]+1, lty=3, col="Blue")
}
curve(ifelse(x >= 1 & x <= b, n*(f(x) - f(x-1)), NA), add=TRUE,
n=max(10001, 10*n), lwd=2, col="#802020")