Nếu tôi lấy toàn bộ dữ liệu và chia tổng số quả bóng có được một batsman cho tổng số quả bóng được cung cấp, tôi có thể thấy rằng tôi sẽ có xác suất trung bình của một cung thủ nhận được một batsman - nó sẽ vào khoảng 0,03 (hy vọng Tôi đã không đi sai?)
Thật không may, điều này có thể đã không chính xác những gì bạn đang tìm kiếm.
Giả sử chúng ta có một cung thủ duy nhất và hai batsmen: Don Bradman và tôi. (Tôi biết rất ít về dế, vì vậy nếu tôi đang làm gì đó ở đây, hãy cho tôi biết.) Các trò chơi diễn ra như sau:
- Don đi dơi, và ra bát thứ 99.
- Tôi đi dơi, và ngay lập tức ra ngoài.
- Don đi dơi, và ra bát thứ 99.
- Tôi đi dơi, và ngay lập tức ra ngoài.
Trong trường hợp này, có bốn trong số 200 bát, vì vậy xác suất cận biên của một cung thủ nhận được một batsman được ước tính là 4/200 = 2%. Nhưng thực sự, xác suất ra của Don giống như 1%, trong khi của tôi là 100%. Vì vậy, nếu bạn chọn một batsman và một Bowler một cách ngẫu nhiên, xác suất để cung thủ này đưa batsman này ra ngoài lần này giống như (50% cơ hội bạn chọn Don) * (1% cơ hội anh ta thoát ra) + (50% cơ hội bạn đã chọn tôi) * (100% cơ hội tôi thoát ra) = 50,05%. Nhưng nếu bạn chọn một sân ngẫu nhiên, thì đó là 2% cơ hội nó được đưa ra. Vì vậy, bạn cần suy nghĩ cẩn thận về những mô hình lấy mẫu nào bạn đang nghĩ đến.
Dù sao, đề nghị của bạn không phải là điên rồ. Một cách tượng trưng hơn, hãy để là cung thủ và m là người chiến đấu; Đặt f ( b , m ) là xác suất để b thoát m . Sau đó, bạn đang nói:bmf(b,m)bm
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
Điều này không có thuộc tính mong muốn rằng:
nó tương tự như nhau nếu bạn chỉ dùng phương tiệnbhoặcm.
Eb , m[ f( b , m ) ] = Eb , m'[ f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
bm
Lưu ý rằng trong trường hợp này, chúng ta có thể gán
Giả định của bạn là bạn có thể quan sátg(b)vàh(m)một cách hợp lý từ dữ liệu. Miễn là (a) bạn có đủ trò chơi [mà bạn làm] và (b) tất cả người chơi chơi với nhau với tần suất tương đối hợp lý, thì điều này là tốt.
C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/C−−√h(m):=Eb[f(b,m)]/C−−√so that f(b,m)=g(b)h(m).
g(b)h(m)
Để giải thích về (b) một chút: hãy tưởng tượng rằng bạn có dữ liệu từ một loạt các trò chơi chuyên nghiệp và một loạt các trò chơi của tôi chơi với bạn bè của tôi. Nếu không có sự trùng lặp, có lẽ tôi trông thực sự tốt so với bạn bè của tôi, vì vậy có lẽ bạn nghĩ tôi tốt hơn nhiều so với cầu thủ chuyên nghiệp tồi tệ nhất. Điều này rõ ràng là sai, nhưng bạn không có bất kỳ dữ liệu nào để bác bỏ điều đó. Nếu bạn có một chút trùng lặp, nơi tôi đã chơi với một người chơi chuyên nghiệp một lần và bị phá hủy, thì dữ liệu hỗ trợ xếp hạng tôi và bạn bè của tôi là tồi tệ hơn so với ưu điểm, nhưng phương pháp của bạn sẽ không tính đến nó. Về mặt kỹ thuật, vấn đề ở đây là bạn đang giả sử bạn có một mẫu tốt cho ví dụ Eb′[f(b′,m)], Nhưng bạn phân phối được thiên vị.b′
Tất nhiên dữ liệu của bạn sẽ không tệ như vậy, nhưng tùy thuộc vào cấu trúc giải đấu hoặc bất cứ điều gì, nó có thể có một số yếu tố của vấn đề đó.
Bạn có thể thử làm việc xung quanh nó với một cách tiếp cận khác. Mô hình đề xuất cho thực sự là một ví dụ của các mô hình nhân tố ma trận thứ hạng thấp phổ biến trong lọc cộng tác , như trong vấn đề Netflix . Ở đó, bạn chọn hàm g ( b ) và h ( m ) là kích thước r và đại diện cho f ( b , m ) = g ( b ) T h ( m ) . Bạn có thể giải thích r > 1fg(b)h(m)rf(b,m)=g(b)Th(m)r>1như làm phức tạp mô hình của bạn từ một điểm "chất lượng" duy nhất để có điểm theo nhiều chiều: có lẽ các nhà cung cấp nhất định làm tốt hơn đối với một số loại batsmen nhất định. (Điều này đã được thực hiện, ví dụ như đối với các trò chơi NBA .)
Lý do chúng được gọi là nhân tố hóa ma trận là bởi vì nếu bạn tạo một ma trận có nhiều hàng như các cung thủ và nhiều cột như batsmen, bạn có thể viết điều này nhưF
nơi bạn đã trang bịN×M
⎡⎣⎢⎢⎢⎢⎢f(b1,m1)f(b2,m1)⋮f(bN,m1)f(b1,m2)f(b2,m2)⋮f(bN,m2)……⋱…f(b1,mM)f(b2,mM)⋮f(bN,mM)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢g(b1)⋮g(bN)⎤⎦⎥⎥G⎡⎣⎢⎢h(m1)⋮h(mM)⎤⎦⎥⎥THT
N×Mma trận
vào một
N × r một
G và
M × r một
H .
FN×rGM×rH
Tất nhiên, bạn không được quan sát trực tiếp Mô hình thông thường là bạn có thể quan sát ngẫu nhiên các mục ồn ào của F ; trong trường hợp của bạn, bạn có thể quan sát một trận hòa từ một phân phối nhị thức với một số ngẫu nhiên của các thử nghiệm cho mỗi mục của F .FFF
Bạn có thể xây dựng một mô hình xác suất như, nói:
Gik∼N(0,σ2G)Hjk∼N(0,σ2H)Fij=GTiHjRij∼Binomial(nij,Fij)
nijRijσGσH
nFij[0,1]GH