Giả sử bạn có thể quan sát "trận đấu" giữa người mua và người bán trên thị trường. Bạn cũng có thể quan sát các đặc điểm của cả người mua và người bán mà bạn muốn sử dụng để dự đoán các trận đấu trong tương lai và đưa ra khuyến nghị cho cả hai bên của thị trường.
Để đơn giản, giả sử có N người mua và N người bán và mỗi người tìm thấy một kết quả khớp. Có N trận đấu và (N-1) (N-1) không khớp. Bộ dữ liệu đào tạo bao gồm tất cả có các quan sát N + (N-1) * (N-1), có thể rất lớn. Dường như việc lấy mẫu ngẫu nhiên từ các kết quả không khớp (N-1) (N-1) và đào tạo một thuật toán trên dữ liệu giảm đó có thể hiệu quả hơn. Câu hỏi của tôi là:
(1) Lấy mẫu từ các trận đấu không phù hợp để xây dựng tập dữ liệu huấn luyện có phải là cách hợp lý để giải quyết vấn đề này không?
(2) Nếu (1) là đúng, có cách nào nghiêm ngặt để quyết định mức độ lớn của một phần của (N-1) (N-1) không?