Tôi là một người hâm mộ bóng đá (bóng đá) khổng lồ và cũng thích học máy. Là một dự án cho khóa ML của tôi, tôi đang cố gắng xây dựng một mô hình dự đoán cơ hội chiến thắng cho đội chủ nhà, được đặt tên của đội chủ nhà và đội khách. (Tôi truy vấn dữ liệu của mình và theo đó tạo ra các bảng dữ liệu dựa trên các trận đấu trước đó giữa 2 đội đó)
Tôi có dữ liệu cho một vài mùa cho tất cả các đội tuy nhiên tôi có các vấn đề sau mà tôi muốn được tư vấn. EPL (Ngoại hạng Anh) có 20 đội chơi với nhau ở nhà và sân khách (tổng số 380 trận trong một mùa). Như vậy, mỗi mùa, bất kỳ hai đội nào chơi với nhau chỉ hai lần.
Tôi có dữ liệu trong hơn 10 năm qua, kết quả là 2 * 10 = 20 điểm dữ liệu cho hai đội. Tuy nhiên tôi không muốn đi qua 3 năm vì tôi tin rằng các đội thay đổi khá đáng kể theo thời gian (ManCity, Liverpool) và điều này sẽ chỉ đưa thêm lỗi vào hệ thống.
Vì vậy, kết quả này chỉ trong khoảng 6-8 điểm dữ liệu cho mỗi cặp đội. Tuy nhiên, tôi có một số tính năng (tối đa 20+) cho mỗi điểm dữ liệu như mục tiêu toàn thời gian, mục tiêu nửa thời gian, chuyền, sút, vàng, đỏ, v.v. cho cả hai đội để tôi có thể bao gồm các tính năng như hình thức gần đây, gần đây mẫu nhà, mẫu sân khách gần đây, vv
Tuy nhiên, ý tưởng về việc chỉ có 6-8 datapoint để đào tạo với tôi dường như không chính xác. Bất kỳ suy nghĩ về cách tôi có thể chống lại vấn đề này? (nếu đây là một vấn đề ở nơi đầu tiên)