Nếu tôi có 58% cơ hội giành được một điểm, thì cơ hội nào để tôi thắng một trận bóng bàn tới 21, thắng 2?


90

Tôi đã đặt cược với một đồng nghiệp rằng trong số 50 trò chơi bóng bàn (lần đầu tiên giành được 21 điểm, thắng 2), tôi sẽ thắng tất cả 50. Cho đến nay chúng tôi đã chơi 15 trận và trung bình tôi thắng 58% điểm số, cộng với tôi đã thắng tất cả các trò chơi cho đến nay. Vì vậy, chúng tôi tự hỏi nếu tôi có 58% cơ hội giành được một điểm và anh ta có 42% cơ hội giành được một điểm, thì bao nhiêu phần trăm cơ hội mà tôi sẽ giành chiến thắng trong trò chơi? Có một công thức mà chúng ta có thể cắm chênh lệch% cơ hội không?

Chúng tôi đã googled tất cả và thậm chí hỏi các nhà khoa học dữ liệu tại công ty của chúng tôi nhưng không thể tìm thấy một câu trả lời thẳng.

Chỉnh sửa: Wow, tôi bị thổi bay bởi sự kỹ lưỡng của các phản ứng. Cám ơn bạn rất nhiều!!! Trong trường hợp mọi người tò mò, tôi có một bản cập nhật về cách đặt cược của tôi đang diễn ra: Bây giờ tôi đã thắng 18 trên 50 trò chơi, vì vậy tôi cần phải thắng thêm 32 trò chơi nữa. Tôi đã giành được 58,7% tổng số điểm và do đó, đối thủ của tôi đã giành được 41,3% số điểm. Độ lệch chuẩn cho đối thủ của tôi là 3,52, điểm trung bình của anh ấy là 14,83 và điểm trung bình của anh ấy là 15,50. Dưới đây là một ảnh chụp màn hình điểm số của mỗi trò chơi cho đến nay. Tôi có thể tiếp tục cập nhật khi đặt cược tiếp tục, nếu mọi người quan tâm.

Chỉnh sửa # 2 : Thật không may, chúng tôi chỉ có thể chơi thêm một vài trò chơi, dưới đây là kết quả. Tôi sẽ tiếp tục thay thế hình ảnh vì vậy tôi không có một loạt các ảnh chụp màn hình về điểm số.

Cập nhật cuối cùng : Cuối cùng tôi đã thua đồng nghiệp của mình trong trò chơi # 28. Anh ta đánh tôi 21-13. Cảm ơn tất cả sự giúp đỡ của bạn!

nhập mô tả hình ảnh ở đây


11
một công thức: cho đó là theo hình thức lần một đa thức bậc-20: 21 điều khoản trong tất cả (với hệ số lớn, lớn nhất vượt quá ). Nếu tất cả các điểm là độc lập, bạn chỉ có cơ hội chiến thắng trong 35 trận tiếp theo. p 21 / ( 1 - 2 p + 2 p 2 ) 1,6 × 10 16 0,432 %p=0.58,p21/(12p+2p2)1.6×10160.432%
whuber

8
Tôi nghi ngờ rằng tất cả các điểm (và trò chơi) là độc lập với nhau (vì nhiều lý do). Sự không độc lập có thể có tác động lớn đến câu trả lời.
Mark L. Stone

8
Giả sử đó là trò chơi giống như tôi đã chơi, tôi nhớ rằng trò chơi này có lợi thế; vì vậy, bỏ qua mọi thứ về "bàn tay nóng" có thể là bạn giành được 68% khi phục vụ và 48% khi không - điều đó sẽ làm lệch mọi xác suất; ngay cả khi nó tăng đến 58%, do đó chúng tôi không có đủ thông tin ..
Hans Olsson

5
Chỉ cần một nhận xét - 21 điểm? Bóng bàn chuyển sang định dạng 11 điểm, tốt nhất trong 7 trận, 2 lần phục vụ mỗi người chơi, trở lại vào năm 2001.
RCgldr

5
Tôi sẽ tiếp tục đăng cập nhật về đặt cược này cứ sau ~ 5 trận. Thật không may, chúng tôi chỉ được chơi một vài trò chơi mỗi tuần vì chúng tôi chỉ chơi sau khi làm việc.
Richard

Câu trả lời:


119

Việc phân tích rất phức tạp bởi triển vọng rằng trò chơi đi vào "làm thêm giờ" để giành chiến thắng với cách biệt ít nhất hai điểm. (Nếu không, nó sẽ đơn giản như giải pháp được hiển thị tại https://stats.stackexchange.com/a/327015/919 .) Tôi sẽ trình bày cách trực quan hóa vấn đề và sử dụng nó để chia nhỏ thành các đóng góp được tính toán dễ dàng câu trả lời. Kết quả, mặc dù một chút lộn xộn, có thể quản lý được. Một mô phỏng mang lại tính chính xác của nó.


Đặt là xác suất của bạn để giành được một điểm. p Giả sử tất cả các điểm là độc lập. Cơ hội bạn thắng một trò chơi có thể được chia thành các sự kiện (không chồng chéo) tùy theo số điểm mà đối thủ của bạn có khi kết thúc với giả định rằng bạn không đi làm thêm giờ ( ) hoặc bạn làm thêm giờ . Trong trường hợp sau, rõ ràng là (hoặc sẽ trở thành) rõ ràng rằng ở một giai đoạn nào đó, điểm số là 20-20.0,1,,19

Có một hình dung tốt đẹp. Hãy để điểm số trong trò chơi được vẽ là điểm trong đó là điểm của bạn và là điểm của đối thủ. Khi trò chơi mở ra, điểm số sẽ di chuyển dọc theo mạng nguyên trong góc phần tư thứ nhất bắt đầu từ , tạo ra một đường dẫn trò chơi . Nó kết thúc lần đầu tiên một trong số bạn đạt được ít nhất và có biên độ ít nhất là . Điểm chiến thắng như vậy tạo thành hai bộ điểm, "ranh giới hấp thụ" của quá trình này, theo đó đường dẫn trò chơi phải chấm dứt.x y ( 0 , 0 ) 21 2(x,y)xy(0,0)212

Nhân vật

Hình này cho thấy một phần của ranh giới hấp thụ (nó kéo dài vô tận lên và sang phải) cùng với con đường của một trò chơi đã đi vào giờ làm thêm (với một mất mát cho bạn, than ôi).

Hãy tính. Số cách trò chơi có thể kết thúc bằng điểm cho đối thủ của bạn là số đường dẫn riêng biệt trong mạng số nguyên của điểm bắt đầu ở điểm ban đầu và kết thúc ở điểm áp chót . Những đường dẫn như vậy được xác định theo điểm nào trong số điểm trong trò chơi bạn giành được. Do đó, chúng tương ứng với các tập hợp con có kích thước trong số và có trong số chúng. Vì trong mỗi con đường như vậy, bạn đã giành được điểm (với xác suất độc lập mỗi lần, tính điểm cuối cùng) và đối thủ của bạn đã giành chiến thắng( x , y ) ( 0 , 0 ) ( 20 , y ) 20 + y 20 1 , 2 , ... , 20 + yy(x,y)(0,0)(20,y)20+y201,2,,20+y(20+y20)21py điểm (với xác suất độc lập mỗi lần), các đường dẫn được liên kết với chiếm tổng cơ hội1py

f(y)=(20+y20)p21(1p)y.

Tương tự, có cách đến đại diện cho cà vạt 20-20. Trong tình huống này, bạn không có một chiến thắng rõ ràng. Chúng tôi có thể tính toán cơ hội giành chiến thắng của bạn bằng cách áp dụng quy ước chung: quên số điểm đã được ghi cho đến nay và bắt đầu theo dõi chênh lệch điểm. Trò chơi ở mức chênh lệch và sẽ kết thúc khi lần đầu tiên đạt hoặc , nhất thiết phải đi qua trên đường đi. Đặt là cơ hội bạn giành chiến thắng khi chênh lệch là .(20+2020)(20,20)0+22±1g(i)i{1,0,1}

Vì cơ hội chiến thắng của bạn trong mọi tình huống là , chúng tôi cóp

g(0)=pg(1)+(1p)g(1),g(1)=p+(1p)g(0),g(1)=pg(0).

Giải pháp duy nhất cho hệ phương trình tuyến tính này cho vectơ ngụ ý(g(1),g(0),g(1))

g(0)=p212p+2p2.

Do đó, đây là cơ hội chiến thắng của bạn một khi đạt được (xảy ra với cơ hội ).(20,20)(20+2020)p20(1p)20

Do đó, cơ hội chiến thắng của bạn là tổng của tất cả các khả năng rời rạc này, bằng với

y=019f(y)+g(0)p20(1p)20(20+2020)=y=019(20+y20)p21(1p)y+p212p+2p2p20(1p)20(20+2020)=p2112p+2p2(y=019(20+y20)(12p+2p2)(1p)y+(20+2020)p(1p)20).

Các công cụ bên trong dấu ngoặc đơn bên phải là một đa thức trong . (Có vẻ như mức độ của nó là , nhưng các điều khoản hàng đầu đều hủy bỏ: mức độ của nó là )p2120

Khi , cơ hội giành chiến thắng là gầnp=0.580.855913992.

Bạn sẽ không gặp khó khăn khi khái quát hóa phân tích này cho các trò chơi kết thúc với bất kỳ số điểm nào. Khi biên yêu cầu lớn hơn , kết quả sẽ phức tạp hơn nhưng cũng đơn giản như vậy.2

Ngẫu nhiên , với những cơ hội chiến thắng này, bạn đã có cơ hội chiến thắng trong trận đầu tiên . Điều đó không phù hợp với những gì bạn báo cáo, điều này có thể khuyến khích chúng tôi tiếp tục cho rằng kết quả của từng điểm là độc lập. Do đó, chúng tôi sẽ dự kiến ​​rằng bạn có cơ hội(0.8559)159.7%15

(0.8559)350.432%

chiến thắng tất cả trò chơi còn lại , giả sử họ tiến hành theo tất cả các giả định này. Nó không giống như một vụ cá cược tốt để thực hiện trừ khi số tiền chi trả lớn!35


Tôi thích kiểm tra công việc như thế này với một mô phỏng nhanh. Đây là Rmã để tạo ra hàng chục ngàn trò chơi trong một giây. Nó giả định rằng trò chơi sẽ kết thúc trong vòng 126 điểm (cực kỳ ít trò chơi cần tiếp tục lâu như vậy, vì vậy giả định này không ảnh hưởng trọng yếu đến kết quả).

n <- 21      # Points your opponent needs to win
m <- 21      # Points you need to win
margin <- 2  # Minimum winning margin
p <- .58     # Your chance of winning a point
n.sim <- 1e4 # Iterations in the simulation

sim <- replicate(n.sim, {
  x <- sample(1:0, 3*(m+n), prob=c(p, 1-p), replace=TRUE)
  points.1 <- cumsum(x)
  points.0 <- cumsum(1-x)
  win.1 <- points.1 >= m & points.0 <= points.1-margin
  win.0 <- points.0 >= n & points.1 <= points.0-margin
  which.max(c(win.1, TRUE)) < which.max(c(win.0, TRUE))
})
mean(sim)

Khi tôi chạy nó, bạn đã thắng trong 8,570 trường hợp trong số 10.000 lần lặp. Điểm Z (với phân phối chuẩn) có thể được tính để kiểm tra các kết quả như vậy:

Z <- (mean(sim) - 0.85591399165186659) / (sd(sim)/sqrt(n.sim))
message(round(Z, 3)) # Should be between -3 and 3, roughly.

Giá trị trong mô phỏng này hoàn toàn phù hợp với tính toán lý thuyết đã nói ở trên.0.31


Phụ lục 1

Theo bản cập nhật cho câu hỏi, trong đó liệt kê các kết quả của 18 trò chơi đầu tiên, đây là bản dựng lại các đường dẫn trò chơi phù hợp với các dữ liệu này. Bạn có thể thấy rằng hai hoặc ba trong số các trò chơi đã gần như thua lỗ. (Bất kỳ đường dẫn nào kết thúc trên một hình vuông màu xám nhạt đều là một mất mát đối với bạn.)

Hình 2

Sử dụng tiềm năng của con số này bao gồm quan sát:

  • Các đường dẫn tập trung quanh một độ dốc theo tỷ lệ 267: 380 của tổng số điểm, tương đương khoảng 58,7%.

  • Sự phân tán của các đường đi quanh độ dốc đó cho thấy sự thay đổi được mong đợi khi các điểm độc lập.

    • Nếu các điểm được tạo thành các vệt, thì các đường riêng lẻ sẽ có xu hướng kéo dài dọc và ngang.

    • Trong một tập hợp dài hơn các trò chơi tương tự, hy vọng sẽ thấy các đường dẫn có xu hướng nằm trong phạm vi màu, nhưng cũng mong đợi một số ít vượt ra ngoài nó.

    • Viễn cảnh của một hoặc hai trò chơi có đường đi nằm trên mức chênh lệch này cho thấy khả năng đối thủ của bạn cuối cùng sẽ thắng một trò chơi, có thể sớm hơn là muộn hơn.


Phụ lục 2

Mã để tạo hình được yêu cầu. Đây là (làm sạch để tạo ra một đồ họa đẹp hơn một chút).

library(data.table)
library(ggplot2)

n <- 21      # Points your opponent needs to win
m <- 21      # Points you need to win
margin <- 2  # Minimum winning margin
p <- 0.58     # Your chance of winning a point
#
# Quick and dirty generation of a game that goes into overtime.
#
done <- FALSE
iter <- 0
iter.max <- 2000
while(!done & iter < iter.max) {
  Y <- sample(1:0, 3*(m+n), prob=c(p, 1-p), replace=TRUE)
  Y <- data.table(You=c(0,cumsum(Y)), Opponent=c(0,cumsum(1-Y)))
  Y[, Complete := (You >= m & You-Opponent >= margin) |
      (Opponent >= n & Opponent-You >= margin)]
  Y <- Y[1:which.max(Complete)]
  done <- nrow(Y[You==m-1 & Opponent==n-1 & !Complete]) > 0
  iter <- iter+1
}
if (iter >= iter.max) warning("Unable to find a solution. Using last.")
i.max <- max(n+margin, m+margin, max(c(Y$You, Y$Opponent))) + 1
#
# Represent the relevant part of the lattice.
#
X <- as.data.table(expand.grid(You=0:i.max,
                               Opponent=0:i.max))
X[, Win := (You == m & You-Opponent >= margin) |
    (You > m & You-Opponent == margin)]
X[, Loss := (Opponent == n & You-Opponent <= -margin) |
    (Opponent > n & You-Opponent == -margin)]
#
# Represent the absorbing boundary.
#
A <- data.table(x=c(m, m, i.max, 0, n-margin, i.max-margin),
                y=c(0, m-margin, i.max-margin, n, n, i.max),
                Winner=rep(c("You", "Opponent"), each=3))
#
# Plotting.
#
ggplot(X[Win==TRUE | Loss==TRUE], aes(You, Opponent)) +
  geom_path(aes(x, y, color=Winner, group=Winner), inherit.aes=FALSE,
            data=A, size=1.5) +
  geom_point(data=X, color="#c0c0c0") +
  geom_point(aes(fill=Win), size=3, shape=22, show.legend=FALSE) +
  geom_path(data=Y, size=1) +
  coord_equal(xlim=c(-1/2, i.max-1/2), ylim=c(-1/2, i.max-1/2),
              ratio=1, expand=FALSE) +
  ggtitle("Example Game Path",
          paste0("You need ", m, " points to win; opponent needs ", n,
                 "; and the margin is ", margin, "."))

Làm thế nào là rời rạc? Không cấu hình lặp lại của bạn? Ví dụ: khi hệ số nhị thức là . Khi thì . Nhưng một trong những cấu hình sau chính xác là cấu hình được tìm thấy cho (tức là 21 điểm giành được cho người chơi của chúng tôi, 0 cho đối thủ). Chúng ta không nên trừ xác suất của giao lộ? Đây là những gì chặn tôi ở nơi đầu tiên. f(y)y=01y=1(2120)=21y=0
Easymode44

1
@whuber: Tuyệt vời, cũng sẽ là phần "trực quan tốt đẹp" trong r codetiết lộ thực hiện? Cảm ơn nhiều.
Maximilian

7
@Stefan Giá trị của tôi được tính bằng cách sử dụng số học hợp lý chính xác (tính bằng Mathicala ) và làm tròn ở cuối. Tôi nghi ngờ bạn có thể đã được tính toán chỉ bằng cách sử dụng dấu phẩy động chính xác kép và do đó, giả sử vài chữ số cuối của bạn không chính xác. Là một số hữu tỷ, giá trị là
2494929816061114641968058046704583744174849151775019163577995310486129149305191822350025177001953125000000000000000000000000000000000000.
whuber

4
@Maximilian Tôi đăng mã cho trực quan.
whuber

3
Tôi nghĩ rằng một cách đơn giản hơn để xử lý việc làm thêm giờ sẽ là lấy điểm theo cặp sau khi đạt được 20-20. Điều duy nhất quan trọng là người chơi đầu tiên giành được cả hai (xác suất 0,58²) hoặc người thứ hai chiến thắng cả hai (0,42²). Nếu bất cứ điều gì khác xảy ra, bỏ qua nó và tiếp tục chơi cho đến khi một trong những điều trên xảy ra. Do đó, xác suất chiến thắng của người chơi thứ nhất sau 20-20 là 0,58² / (0,58² + 0,42²) và của người chơi thứ hai là 0,42² / (0,58² + 0,42²).
supercat

25

Sử dụng phân phối nhị thức và giả sử mọi điểm là độc lập:

  • Xác suất người chơi đạt trong điểm đầu tiên (tính đến thực tế là điểm cuối cùng phải giành được) là58%2140n=2140(n120)0.58210.42n21 =k=2140(40k)0.58k0.4240k 0.80695

  • Xác suất người chơi nhận được từ điểm đã chơi là nhị thức . Dựa vào điều đó, xác suất người chơi sau đó thắng với tỷ lệ hai điểm là58%2040(4020)0.58200.42200.07463558%0.5820.582+0.4220.656006

Vì vậy, xác suất chung mà người chơi thắng là khoảng0,80695 + 0,074635 × 0,656006 0,855958%0.80695+0.074635×0.656006 0.8559

Xác suất người chơi chiến thắng trong trò chơi đầu tiên sau đó là khoảng , điều này khá khó xảy ra. Xác suất người chơi chiến thắng trong trận cuối cùng là khoảng , điều này rất khó xảy ra. 15 0,85559 150,0969 58 % 35 0,85559 350,004358%150.85559150.096958%350.85559350.0043


2
Phần "xác suất người chơi sau đó thắng với tỷ lệ hai điểm là "0,58 2 / ( 0,58 2 + 0,42 2 ) 0,65600658%0.582/(0.582+0.422)0.656006 có thể sử dụng một số lời giải thích, vì đây có thể là phần khó nhất trong phần này vấn đề.
JiK

1
@JiK: Một lần ở mức hoặc muộn hơn, xác suất của một vài điểm quyết định là và do đó xác suất người chơi tốt hơn có được hai điểm trước chứ không phải người chơi kém hơn làm như vậy là - nếu không họ sẽ trở lại vị trí tương tự0,58 2 + 0,42 2 0,58 220200.582+0.4220.5820.582+0.422
Henry

3
Một câu trả lời ngắn gọn hơn nhiều so với câu trả lời hàng đầu, nhưng tôi đoán vì nó không có hình ảnh và được đăng 12 giờ sau đó, nó nhận được ít hơn 80 phiếu bầu? = |
Attackfarm

17

Tôi đã đi với một câu trả lời tính toán. Đây là một hàm R mô phỏng trò chơi bóng bàn trong đó người chiến thắng phải thắng 2. Đối số duy nhất là xác suất bạn giành được một điểm. Nó sẽ trả về điểm số cuối cùng của trò chơi đó:

## data simulation function ----------------------------------------------------
sim_game <- function(pt_chance) {
  them <- 0
  you <- 0
  while (sum((them < 21 & you < 21), abs(them - you) < 2) > 0) {
    if (rbinom(1, 1, pt_chance) == 1) {
      you <- you + 1
      them <- them + 0
    } else {
      you <- you + 0
      them <- them + 1
    }
  }
  return(list(them = them, you = you))
}

Trước tiên, hãy đảm bảo rằng nó hoạt động bằng cách mô phỏng 10.000 trò chơi trong đó bạn có 50% cơ hội giành được mỗi điểm. Chúng tôi nên quan sát rằng tỷ lệ thắng của bạn là khoảng 50%:

## testing 10,000 games --------------------------------------------------------
set.seed(1839)
results <- lapply(1:10000, function(x) sim_game(.5))
results <- as.data.frame(do.call(rbind, results))
results$you_win <- unlist(results$you) > unlist(results$them)
mean(results$you_win)

Điều này trả về .4955, về những gì chúng ta mong đợi. Vì vậy, hãy cắm 58% của bạn:

## simulate 10,000 games -------------------------------------------------------
set.seed(1839)
results <- lapply(1:10000, function(x) sim_game(.58))
results <- as.data.frame(do.call(rbind, results))
results$you_win <- unlist(results$you) > unlist(results$them)
mean(results$you_win)

Điều này trả về .8606. Vì vậy, bạn có khoảng 86,06% cơ hội chiến thắng một trò chơi.

Bây giờ chúng tôi có thể mô phỏng trên 35 lô trò chơi và xem bạn sẽ thắng bao nhiêu lần trong tất cả 35:

## how often do you win all 35? ------------------------------------------------
set.seed(1839)
won_all_35 <- c()
for (i in 1:10000) {
  results <- lapply(1:35, function(x) sim_game(.58))
  results <- as.data.frame(do.call(rbind, results))
  results$you_win <- unlist(results$you) > unlist(results$them)
  won_all_35[i] <- mean(results$you_win) == 1
}
mean(won_all_35)

Điều này trả về 0,0037, có nghĩa là bạn có khoảng 0,37% cơ hội chiến thắng trong 35 trận tiếp theo. Điều này giả định rằng tất cả các trò chơi và tất cả các điểm là độc lập với nhau. Bạn có thể lập trình rõ ràng vào chức năng trên, nếu bạn muốn.

Lưu ý: Tôi đang làm điều này một cách nhanh chóng. Tôi chắc chắn có một cách lập trình hiệu quả hơn về mặt tính toán này.


Hãy thử pbetterwins <- pbinom(19,40,0.42) + dbinom(20,40,0.42) * 0.58^2/(0.58^2+0.42^2); pbetterwins; pbetterwins^35tính toán bằng cách sử dụng phân phối nhị thức. Đủ gần với mô phỏng của bạn
Henry

15

Chúng ta có nên cho rằng 58% cơ hội chiến thắng là cố định và điểm đó là độc lập?

Tôi tin rằng câu trả lời của Whuber là một câu hỏi hay , được viết và giải thích rất hay, khi xem xét là mọi điểm đều độc lập với câu tiếp theo . Tuy nhiên tôi tin rằng, trong thực tế, nó chỉ là một điểm khởi đầu thú vị (lý thuyết / lý tưởng hóa). Tôi tưởng tượng rằng trong thực tế, các điểm không độc lập với nhau và điều này có thể khiến cho đối thủ đồng nghiệp của bạn ít nhiều có thể giành chiến thắng ít nhất một lần trong số 50.

Lúc đầu, tôi tưởng tượng rằng sự phụ thuộc của các điểm sẽ là một quá trình ngẫu nhiên , tức là không bị người chơi kiểm soát (ví dụ: khi một người chiến thắng hoặc thua khi chơi khác nhau) và điều này sẽ tạo ra sự phân tán lớn hơn các kết quả có lợi cho người chơi kém hơn để có được điều này một điểm trong năm mươi.

Tuy nhiên, một ý nghĩ thứ hai có thể gợi ý ngược lại : Việc bạn đã "đạt được" thứ gì đó với 9,7% cơ hội có thể mang lại một số lợi ích (nhưng chỉ một chút), theo quan điểm của Bayes, cho các ý tưởng về các cơ chế ủng hộ bạn giành được hơn 85% xác suất để thắng một trò chơi (hoặc ít nhất làm cho ít có khả năng đối thủ của bạn có xác suất cao hơn nhiều so với 15% như đã nêu trong hai đoạn trước). Chẳng hạn, có thể là bạn ghi điểm tốt hơn khi vị trí của bạn kém hơn (không có gì lạ khi mọi người ghi nhiều điểm khác nhau hơn về điểm trận đấu, ủng hộ hoặc chống lại, so với điểm thông thường). Bạn có thể cải thiện các ước tính 85% bằng cách tính đến các động lực này và có thể bạn có xác suất cao hơn 85% để chiến thắng một trò chơi.

Dù sao, có thể rất sai khi sử dụng thống kê điểm đơn giản này để đưa ra câu trả lời. Có, bạn có thể làm điều đó, nhưng sẽ không đúng vì các tiền đề (tính độc lập của điểm) không nhất thiết đúng và ảnh hưởng lớn đến câu trả lời . Thống kê 42/58 là nhiều thông tin hơn nhưng chúng tôi không biết rõ cách sử dụng nó (tính chính xác của mô hình) và sử dụng thông tin có thể cung cấp câu trả lời với độ chính xác cao mà nó thực sự không có.


Thí dụ

Ví dụ: một mô hình hợp lý như nhau với kết quả hoàn toàn khác

Vì vậy, câu hỏi giả thuyết (giả sử các điểm độc lập và được biết, về mặt lý thuyết, xác suất cho các điểm này) tự nó thú vị và có thể được trả lời, nhưng chỉ để gây phiền nhiễu và hoài nghi / hoài nghi; một câu trả lời cho trường hợp giả định không liên quan nhiều đến vấn đề cơ bản / nguyên bản của bạn và có thể là lý do tại sao các nhà thống kê / nhà khoa học dữ liệu tại công ty của bạn không muốn đưa ra câu trả lời thẳng.

Chỉ cần đưa ra một ví dụ khác (không tốt hơn là cần thiết) cung cấp một tuyên bố (phản đối) khó hiểu 'Q: xác suất để thắng tất cả 50 trò chơi là gì nếu tôi đã thắng 15?' Nếu chúng tôi không bắt đầu nghĩ rằng 'điểm số 42/58 có liên quan hoặc đưa ra dự đoán tốt hơn' thì chúng tôi sẽ bắt đầu đưa ra dự đoán về xác suất của bạn để thắng trò chơi và dự đoán sẽ thắng 35 trận khác chỉ dựa trên chiến thắng trước đó của bạn 15 trò chơi:

  • với kỹ thuật Bayes cho xác suất của bạn để thắng một trò chơi, điều này có nghĩa là: , khoảng 31% cho đồng phục trước f (x) = 1, mặc dù điều đó có thể hơi quá lạc quan. Nhưng nếu bạn xem xét phân phối beta với trong khoảng từ 1 đến 5 thì bạn có thể:p(win another 35 | after already 15)=01f(p)p5001f(p)p15β=α

cơ hội sau là chức năng của phân phối beta trước

điều đó có nghĩa là tôi sẽ không quá bi quan như dự đoán đơn giản 0,432% Thực tế là bạn đã thắng 15 trận sẽ nâng cao xác suất bạn thắng 35 trận tiếp theo.


Lưu ý dựa trên dữ liệu mới

Dựa trên dữ liệu của bạn cho 18 trò chơi, tôi đã thử điều chỉnh mô hình nhị phân beta. Thay đổi và và tính toán xác suất để đạt được điểm i, 21 (thông qua i, 20) hoặc điểm 20,20 và sau đó tính tổng các bản ghi của họ một điểm khả năng đăng nhập.α=μνβ=(1μ)ν

Nó cho thấy rằng một tham số rất cao (phân tán nhỏ trong phân phối beta cơ bản) có khả năng cao hơn và do đó có thể có ít sự phân tán quá mức. Điều đó có nghĩa là dữ liệu không cho thấy rằng tốt hơn là sử dụng tham số biến cho xác suất giành được điểm của bạn, thay vì cơ hội chiến thắng 58% cố định của bạn. Dữ liệu mới này đang cung cấp hỗ trợ thêm cho phân tích của Whuber, giả định điểm số dựa trên phân phối nhị thức. Nhưng tất nhiên, điều này vẫn cho rằng mô hình là tĩnh và cả bạn và đồng nghiệp của bạn cư xử theo một mô hình ngẫu nhiên (trong đó mọi trò chơi và điểm đều độc lập).ν

Ước tính khả năng tối đa cho các tham số phân phối beta thay cho cơ hội chiến thắng 58% cố định:

ước tính khả năng tối đa để phân phối beta cơ hội chiến thắng 58p

H: làm cách nào để đọc biểu đồ "LogLikabilities cho tham số mu và nu"?

A:

  • 1) Ước tính khả năng tối đa (MLE) là một cách để phù hợp với một mô hình. Khả năng có nghĩa là xác suất của dữ liệu được cung cấp các tham số của mô hình và sau đó chúng tôi tìm kiếm mô hình tối đa hóa điều này. Có rất nhiều triết lý và toán học đằng sau nó.
  • 2) Cốt truyện là một phương pháp tính toán lười biếng để đi đến MLE tối ưu. Tôi chỉ tính toán tất cả các giá trị có thể trên một lưới và xem valeu là gì. Nếu bạn cần nhanh hơn, bạn có thể sử dụng phương pháp / thuật toán lặp tính toán để tìm kiếm tối ưu, hoặc có thể có một giải pháp phân tích trực tiếp.
  • 3) Các tham số và liên quan đến bản phân phối beta https://en.wikipedia.org/wiki/Beta_distribution được sử dụng làm mô hình cho p = 0,58 (để làm cho nó không cố định mà thay vào đó thay đổi theo thời gian thời gian). Mô hình 'beta-p' này được kết hợp với mô hình nhị thức để dự đoán xác suất đạt được điểm số nhất định. Nó gần giống như phân phối nhị thức beta. Bạn có thể thấy rằng mức tối ưu là khoảng , điều này không đáng ngạc nhiên. Các giá trị cao (có nghĩa là phân tán thấp). Tôi đã tưởng tượng / mong đợi ít nhất là một số phân tán quá mức.ν L 0,6 νμνμ0.6ν

mã / tính toán cho đồ thị 1

posterior <- sapply(seq(1,5,0.1), function(x) {
    integrate(function(p) dbeta(p,x,x)*p^50,0,1)[1]$value/
    integrate(function(p) dbeta(p,x,x)*p^15,0,1)[1]$value
  }
)

prior <- sapply(seq(1,5,0.1), function(x) {
  integrate(function(p) dbeta(p,x,x)*p^35,0,1)[1]$value
}
)

layout(t(c(1,2)))


plot(  seq(1,5,0.1), posterior,
       ylim = c(0,0.32),
       xlab = expression(paste(alpha, " and ", beta ," values for prior beta-distribution")),
       ylab = "P(win another 35| after already 15)"
)
title("posterior probability assuming beta-distribution")

plot(  seq(1,5,0.1), prior,
       ylim = c(0,0.32),
       xlab = expression(paste(alpha, " and ", beta ," values for prior beta-distribution")),
       ylab = "P(win 35)"
)
title("prior probability assuming beta-distribution")

mã / tính toán cho đồ thị 2

library("shape")

# probability that you win and opponent has kl points
Pwl <- function(a,b,kl,kw=21) {
  kt <- kl+kw-1
  Pwl <- choose(kt,kw-1) * beta(kw+a,kl+b)/beta(a,b)
  Pwl
}

# probability to end in the 20-20 score
Pww <- function(a,b,kl=20,kw=20) {
  kt <- kl+kw
  Pww <- choose(kt,kw) * beta(kw+a,kl+b)/beta(a,b)
  Pww
}

# probability that you lin with kw points
Plw <- function(a,b,kl=21,kw) {
  kt <- kl+kw-1
  Plw <- choose(kt,kw) * beta(kw+a,kl+b)/beta(a,b)
  Plw
}

# calculation of log likelihood for data consisting of 17 opponent scores and 1 tie-position 
# parametezation change from mu (mean) and nu to a and b 
loglike <- function(mu,nu) { 
  a <- mu*nu
  b <- (1-mu)*nu
  scores <- c(18, 17, 11, 13, 15, 15, 16, 9, 17, 17, 13, 8, 17, 11, 17, 13, 19) 
  ps <- sapply(scores, function(x) log(Pwl(a,b,x)))
  loglike <- sum(ps,log(Pww(a,b)))
  loglike
}

#vectors and matrices for plotting contour
mu <- c(1:199)/200
nu <- 2^(c(0:400)/40)
z <- matrix(rep(0,length(nu)*length(mu)),length(mu))
for (i in 1:length(mu)) {
  for(j in 1:length(nu)) {
    z[i,j] <- loglike(mu[i],nu[j])
  }
}

#plotting
levs <- c(-900,-800,-700,-600,-500,-400,-300,-200,-100,-90,-80,-70,-60,-55,-52.5,-50,-47.5)
# contour plot
filled.contour(mu,log(nu),z,
               xlab="mu",ylab="log(nu)",         
               #levels=c(-500,-400,-300,-200,-100,-10:-1),
               color.palette=function(n) {hsv(c(seq(0.15,0.7,length.out=n),0),
                                              c(seq(0.7,0.2,length.out=n),0),
                                              c(seq(1,0.7,length.out=n),0.9))},
               levels=levs,
               plot.axes= c({
                 contour(mu,log(nu),z,add=1, levels=levs)
                 title("loglikelihood for parameters mu and nu")
                 axis(1)
                 axis(2)
               },""),
               xlim=range(mu)+c(-0.05,0.05),
               ylim=range(log(nu))+c(-0.05,0.05)
)

2
+1 Tôi đánh giá cao quan điểm mới. Nhưng tôi sẽ thách thức sự khẳng định rằng sự phụ thuộc giữa các điểm khiến nhiều khả năng đối thủ sẽ giành chiến thắng trong 35 trận tiếp theo. Trong thực tế, nó có thể đi một trong hai cách. Một cơ chế hợp lý cho kết luận ngược lại là bạn mạnh hơn rất nhiều so với tỷ lệ 58-42 trong các điểm sẽ gợi ý và khi được gọi, bạn luôn có thể tập hợp để giành chiến thắng bất kỳ trò chơi nào ngay cả khi bị bỏ lại phía sau. Vấn đề thực sự trong việc không giả định độc lập liên quan đến việc làm thế nào để mô hình hóa sự không độc lập.
whuber

@whuber, bạn nói đúng. Tôi cũng tranh luận cho một trong hai cách. 1) Suy nghĩ đầu tiên của tôi đi theo một hướng, sự phụ thuộc sẽ là ngẫu nhiên, ví dụ như mọi người không kiểm soát được những khoảnh khắc tốt và những khoảnh khắc xấu, và điều này tôi tưởng tượng sẽ tạo ra sự phân tán lớn hơn về kết quả đẩy khả năng của người chơi kém hơn. 2) Tuy nhiên, sau đó tôi đã nghĩ về các nguyên tắc Bayes và làm thế nào các trò chơi 15 won có thể ảnh hưởng đến phân tích (ít nhất câu hỏi trong bài là một tình huống khác với câu hỏi trong tiêu đề), và có thể có các cơ chế có thể có lợi cho người chơi mạnh hơn.
Martijn Weterings

1
Trong nửa sau của bài viết của tôi, tôi chỉ đưa ra một ví dụ cho thấy xác suất để giành chiến thắng phải lớn hơn 86%. Nhưng trong khi tất cả các toán học này nghe có vẻ rất chính xác, trong thực tế, chúng tôi không thực sự chắc chắn vì các mô hình của chúng tôi rất tệ (với rất nhiều thông tin bổ sung, giảm độ chính xác, chủ quan) với lượng thông tin ít ỏi này.
Martijn Weterings

2
@whuber Mình đã chỉnh sửa câu trả lời của mình. Đó là một nhận xét tốt, và tôi hy vọng nó sẽ rõ ràng hơn trong câu trả lời.
Martijn Weterings

1
2) Cốt truyện là một phương pháp tính toán lười biếng để đi đến MLE tối ưu. Tôi chỉ tính toán tất cả các giá trị có thể trên một lưới và xem valeu là gì. Nếu bạn cần nhanh hơn, bạn có thể sử dụng phương pháp / thuật toán lặp tính toán để tìm kiếm tối ưu, hoặc có thể có một giải pháp phân tích trực tiếp.
Martijn Weterings

12

Nhiều nỗ lực có thể được dành cho một mô hình hoàn hảo. Nhưng đôi khi một mô hình xấu là tốt hơn. Và không có gì nói mô hình xấu như định lý giới hạn trung tâm - mọi thứ đều là một đường cong bình thường.

Chúng tôi sẽ bỏ qua "làm thêm giờ". Chúng ta sẽ mô hình tổng các điểm riêng lẻ như một đường cong bình thường. Chúng tôi sẽ chơi mô hình 38 vòng và bất kỳ ai cũng giành được nhiều điểm nhất, thay vì đầu tiên đến 20. Đây là trò chơi khá giống nhau!

Và, mù quáng, tôi sẽ tuyên bố chúng ta đến gần câu trả lời đúng.

Gọi là phân phối của một điểm. có giá trị 1 khi bạn nhận được điểm và 0 khi bạn không có điểm.XX

Vậy = ~ và = = ~ .E(X)0.58Var(X)E(X)(1E(X))0.24

Nếu là các điểm độc lập, thì là số điểm bạn nhận được sau khi chơi 38 vòng.Xii=138Xi

E(i=138Xi) = = ~38E(X)22.04

Var(i=138Xi) = 38 * Var ( ) = ~X9.12

và = = ~SD(i=138Xi) 3.0238Var(X))3.02

Trong mô hình thô của chúng tôi, chúng tôi thua nếu và giành chiến thắng nếu .Σ 38 i = 1 X i > 19i=138Xi<19i=138Xi>19

1,0115,62%22.04193.02 là độ lệch chuẩn so với giá trị trung bình, có khả năng thất bại sau khi tham khảo biểu đồ điểm z .1.0115.62%

Nếu chúng ta so sánh với các câu trả lời khắt khe hơn, thì đây là khoảng giá trị đúng.1%

Nói chung, bạn nên kiểm tra độ tin cậy của cơ hội chiến thắng thay vì một mô hình khắt khe hơn với giả định cơ hội và mô hình hóa nó một cách hoàn hảo.58 %58%58%


@Yakk, 38 đã đến từ đâu vậy ?? Ngoài ra tôi khá chắc chắn var (38 * x) = 38 ^ 2 * var (X), không phải 38 * var (X). Làm thế nào để "mặt sau rất đẹp của tính toán phong bì" giữ vững sau khi bạn sửa lỗi đó?
use_norm_approx

@use_ Tôi đang sử dụng 38 * X cẩu thả là "tổng của 38 X độc lập", không phải "một lần X 38". 38 đến từ "bất cứ ai nhận được hơn 19 trận thắng đầu tiên sẽ thắng trò chơi". Tôi có thể đã sử dụng 39 trò chơi và lần đầu tiên> 19,5; kết quả sẽ tương tự.
Yakk

3

Dựa trên mô phỏng, có vẻ như xác suất chiến thắng bất kỳ trò chơi nào là khoảng 85,5%.

Xác suất chiến thắng chính xác bằng 2 (đó là cách tôi đọc tiêu đề, nhưng dường như không phải là điều bạn đang hỏi) là khoảng 10,1%.

Chạy mã dưới đây.

set.seed(328409)
sim.game <- function(p)
{
 x1 = 0 
 x2 = 0 
 while( (max(c(x1,x2)) < 21) | abs(x1-x2)<2  ) 
 {
   if(runif(1) < p) x1 = x1 + 1 else x2 = x2 + 1 
 }
 return( c(x1,x2) ) 
}

S <- matrix(0, 1e5, 2)
for(k in 1:1e5) S[k,] <- sim.game(0.58)

mean( (S[,1]-S[,2]) == 2 ) #chance of winning by 2
mean(S[,1]>S[,2]) #chance of winning

1
Điều này rất gần với giải pháp phân tích của Whuber: dbinom(20,40,0.58)*0.58^2/(1-2*0.58+2*0.58^2)+dbinom(20,39,0.58)*0.58cho 10,04%
Martijn Weterings
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.