Lấy cảm hứng từ bài nói chuyện của Peter Donnelly tại TED , trong đó anh ấy thảo luận về việc sẽ mất bao lâu để một mẫu nhất định xuất hiện trong một loạt các lần tung đồng xu, tôi đã tạo ra đoạn script sau trong R. Đưa ra hai mẫu 'hth' và 'ome', nó tính toán trung bình mất bao lâu (tức là có bao nhiêu lần tung đồng xu) trước khi bạn đạt được một trong những mẫu này.
coin <- c('h','t')
hit <- function(seq) {
miss <- TRUE
fail <- 3
trp <- sample(coin,3,replace=T)
while (miss) {
if (all(seq == trp)) {
miss <- FALSE
}
else {
trp <- c(trp[2],trp[3],sample(coin,1,T))
fail <- fail + 1
}
}
return(fail)
}
n <- 5000
trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n))
hth <- c('h','t','h')
htt <- c('h','t','t')
set.seed(4321)
for (i in 1:n) {
trials[i,] <- c(hit(hth),hit(htt))
}
summary(trials)
Các thống kê tóm tắt như sau,
hth htt
Min. : 3.00 Min. : 3.000
1st Qu.: 4.00 1st Qu.: 5.000
Median : 8.00 Median : 7.000
Mean :10.08 Mean : 8.014
3rd Qu.:13.00 3rd Qu.:10.000
Max. :70.00 Max. :42.000
Trong buổi nói chuyện, người ta giải thích rằng số lần tung đồng xu trung bình sẽ khác nhau đối với hai mẫu; như có thể thấy từ mô phỏng của tôi. Mặc dù đã xem cuộc nói chuyện một vài lần nhưng tôi vẫn không hiểu tại sao lại như vậy. Tôi hiểu rằng 'hth' chồng chéo lên nhau và theo trực giác tôi sẽ nghĩ rằng bạn sẽ đánh 'hth' sớm hơn 'ome', nhưng đây không phải là trường hợp. Tôi thực sự sẽ đánh giá cao nó nếu ai đó có thể giải thích điều này với tôi.