Mô hình cricket Bowlers nhận batsmen ra


9

Tôi có một bộ dữ liệu chi tiết một số lượng lớn các trò chơi cricket (vài nghìn). Trong môn cricket "cung thủ" liên tục ném một quả bóng vào một chuỗi "batsmen". Bowler đang cố gắng để batsman "ra". Về mặt này, nó khá giống với bình và batters trong bóng chày.

Nếu tôi lấy toàn bộ dữ liệu và chia tổng số quả bóng có được một batsman cho tổng số quả bóng được cung cấp, tôi có thể thấy rằng tôi sẽ có xác suất trung bình của một cung thủ nhận được một batsman - nó sẽ vào khoảng 0,03 ( hy vọng tôi đã không đi sai?)

Điều tôi quan tâm là những gì tôi có thể làm để thử và tính xác suất của một batsman cụ thể bị ném ra bởi một cung thủ cụ thể trên quả bóng tiếp theo.

Bộ dữ liệu đủ lớn để bất kỳ cung thủ nào được cung cấp sẽ ném hàng ngàn quả bóng cho một loạt các batsmen. Vì vậy, tôi tin rằng tôi chỉ đơn giản có thể chia số lượng người chơi ném bóng đạt được bằng số quả bóng anh ta đã ném để tính xác suất mới cho người ném bóng cụ thể đó thoát ra khỏi quả bóng tiếp theo.

Vấn đề của tôi là bộ dữ liệu không đủ lớn để đảm bảo rằng một cung thủ nhất định đã cung cấp số lượng bóng có ý nghĩa thống kê ở bất kỳ batsmen nào. Vì vậy, nếu tôi quan tâm đến việc tính toán xác suất ra cho một cung thủ cụ thể phải đối mặt với một batsmen cụ thể, tôi không nghĩ rằng điều này không thể được thực hiện theo cách đơn giản tương tự.

Câu hỏi của tôi là liệu cách tiếp cận sau là hợp lệ:

  • Trên toàn bộ tập dữ liệu, xác suất để một quả bóng thoát ra là 0,03.

  • Nếu tôi tính toán rằng trung bình Bowler A có xác suất thoát ra khỏi 0,06 (tức là gấp đôi khả năng của một Bowler trung bình),

  • và trung bình batsman B có xác suất nằm ngoài 0,01 (một phần ba so với batsmen trung bình),

  • Sau đó, có hợp lệ không khi nói xác suất của người batsman cụ thể đó ở ngoài quả bóng tiếp theo với người ném bóng cụ thể đó sẽ là 0,06 * (0,01 / 0,03) = 0,02?


Nếu cung thủ chọn liên tục ném bóng, họ sẽ nhanh chóng thấy mình bị loại khỏi khả năng ném bóng một lần nữa trong trò chơi.
Glen_b -Reinstate Monica

Câu trả lời:


2

Nếu tôi lấy toàn bộ dữ liệu và chia tổng số quả bóng có được một batsman cho tổng số quả bóng được cung cấp, tôi có thể thấy rằng tôi sẽ có xác suất trung bình của một cung thủ nhận được một batsman - nó sẽ vào khoảng 0,03 (hy vọng Tôi đã không đi sai?)

Thật không may, điều này có thể đã không chính xác những gì bạn đang tìm kiếm.

Giả sử chúng ta có một cung thủ duy nhất và hai batsmen: Don Bradman và tôi. (Tôi biết rất ít về dế, vì vậy nếu tôi đang làm gì đó ở đây, hãy cho tôi biết.) Các trò chơi diễn ra như sau:

  • Don đi dơi, và ra bát thứ 99.
  • Tôi đi dơi, và ngay lập tức ra ngoài.
  • Don đi dơi, và ra bát thứ 99.
  • Tôi đi dơi, và ngay lập tức ra ngoài.

Trong trường hợp này, có bốn trong số 200 bát, vì vậy xác suất cận biên của một cung thủ nhận được một batsman được ước tính là 4/200 = 2%. Nhưng thực sự, xác suất ra của Don giống như 1%, trong khi của tôi là 100%. Vì vậy, nếu bạn chọn một batsman và một Bowler một cách ngẫu nhiên, xác suất để cung thủ này đưa batsman này ra ngoài lần này giống như (50% cơ hội bạn chọn Don) * (1% cơ hội anh ta thoát ra) + (50% cơ hội bạn đã chọn tôi) * (100% cơ hội tôi thoát ra) = 50,05%. Nhưng nếu bạn chọn một sân ngẫu nhiên, thì đó là 2% cơ hội nó được đưa ra. Vì vậy, bạn cần suy nghĩ cẩn thận về những mô hình lấy mẫu nào bạn đang nghĩ đến.


Dù sao, đề nghị của bạn không phải là điên rồ. Một cách tượng trưng hơn, hãy để là cung thủ và m là người chiến đấu; Đặt f ( b , m ) là xác suất để b thoát m . Sau đó, bạn đang nói:bmf(b,m)bm

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

Điều này không có thuộc tính mong muốn rằng: nó tương tự như nhau nếu bạn chỉ dùng phương tiệnbhoặcm.

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
bm

Lưu ý rằng trong trường hợp này, chúng ta có thể gán Giả định của bạn là bạn có thể quan sátg(b)h(m)một cách hợp lý từ dữ liệu. Miễn là (a) bạn có đủ trò chơi [mà bạn làm] và (b) tất cả người chơi chơi với nhau với tần suất tương đối hợp lý, thì điều này là tốt.

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
g(b)h(m)

Để giải thích về (b) một chút: hãy tưởng tượng rằng bạn có dữ liệu từ một loạt các trò chơi chuyên nghiệp và một loạt các trò chơi của tôi chơi với bạn bè của tôi. Nếu không có sự trùng lặp, có lẽ tôi trông thực sự tốt so với bạn bè của tôi, vì vậy có lẽ bạn nghĩ tôi tốt hơn nhiều so với cầu thủ chuyên nghiệp tồi tệ nhất. Điều này rõ ràng là sai, nhưng bạn không có bất kỳ dữ liệu nào để bác bỏ điều đó. Nếu bạn có một chút trùng lặp, nơi tôi đã chơi với một người chơi chuyên nghiệp một lần và bị phá hủy, thì dữ liệu hỗ trợ xếp hạng tôi và bạn bè của tôi là tồi tệ hơn so với ưu điểm, nhưng phương pháp của bạn sẽ không tính đến nó. Về mặt kỹ thuật, vấn đề ở đây là bạn đang giả sử bạn có một mẫu tốt cho ví dụ Eb[f(b,m)], Nhưng bạn phân phối được thiên vị.b

Tất nhiên dữ liệu của bạn sẽ không tệ như vậy, nhưng tùy thuộc vào cấu trúc giải đấu hoặc bất cứ điều gì, nó có thể có một số yếu tố của vấn đề đó.


Bạn có thể thử làm việc xung quanh nó với một cách tiếp cận khác. Mô hình đề xuất cho thực sự là một ví dụ của các mô hình nhân tố ma trận thứ hạng thấp phổ biến trong lọc cộng tác , như trong vấn đề Netflix . Ở đó, bạn chọn hàm g ( b )h ( m ) là kích thước r và đại diện cho f ( b , m ) = g ( b ) T h ( m ) . Bạn có thể giải thích r > 1fg(b)h(m)rf(b,m)=g(b)Th(m)r>1như làm phức tạp mô hình của bạn từ một điểm "chất lượng" duy nhất để có điểm theo nhiều chiều: có lẽ các nhà cung cấp nhất định làm tốt hơn đối với một số loại batsmen nhất định. (Điều này đã được thực hiện, ví dụ như đối với các trò chơi NBA .)

Lý do chúng được gọi là nhân tố hóa ma trận là bởi vì nếu bạn tạo một ma trận có nhiều hàng như các cung thủ và nhiều cột như batsmen, bạn có thể viết điều này nhưF

nơi bạn đã trang bịN×M

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
N×Mma trận vào một N × r một GM × r một H .FN×rGM×rH

Tất nhiên, bạn không được quan sát trực tiếp Mô hình thông thường là bạn có thể quan sát ngẫu nhiên các mục ồn ào của F ; trong trường hợp của bạn, bạn có thể quan sát một trận hòa từ một phân phối nhị thức với một số ngẫu nhiên của các thử nghiệm cho mỗi mục của F .FFF

Bạn có thể xây dựng một mô hình xác suất như, nói:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
nijRijσGσH

nFij[0,1]GH


1
@Ravi Điều này đã lâu, có lẽ không được giải thích rõ ràng và tôi không biết mức độ nền tảng của bạn với các loại vấn đề này. Nhưng hãy thoải mái đặt câu hỏi về bất kỳ phần nào không rõ ràng. Ngoài ra, vì dữ liệu của bạn là một đối một, bạn cũng có thể xem xét sử dụng Elo nói .
Dougal

Cảm ơn bạn đã dành thời gian để viết câu trả lời chất lượng rất cao này. Phải thừa nhận rằng tôi chỉ biết số liệu thống kê cơ bản ngay bây giờ nên rất nhiều điều này là mới đối với tôi. Tuy nhiên, nó cho tôi thấy rất rõ những gì cần đọc để hiểu đúng vấn đề này, đó chính xác là những gì tôi muốn. Hy vọng sau vài ngày (hoặc nhiều năm!) Tôi sẽ có thể hiểu câu trả lời của bạn tốt hơn.
Ravi

Cảm ơn bạn. Tôi đã có một câu hỏi về Elo. Vì nó khá dài nên tôi đã mở một câu hỏi mới [tại đây] :( stats.stackexchange.com/questions/230518/ mẹo )
Ravi

0

Bạn không thể suy ra xác suất chính xác rằng B sẽ được đưa ra nếu A là cung thủ nếu A và B không bao giờ gặp nhau trên sân chỉ dựa trên mức trung bình của họ với những người chơi khác .


3
Mặc dù bạn có thể đúng về môn cricket, khả năng hệ thống xếp hạng trong các trò chơi kỹ năng khác như cờ vua để dự đoán kết quả trận đấu giữa những người chưa bao giờ thi đấu gợi ý khác.
whuber

2
@whuber Đồng ý - Tôi nghĩ rằng nó sẽ hoàn toàn chính xác như của dế như hầu hết các tương tác cạnh tranh khác. Cricket không khác nhau.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.