Giả sử tôi muốn tìm hiểu một bộ phân loại lấy một vectơ số làm đầu vào và đưa ra một nhãn lớp làm đầu ra. Dữ liệu đào tạo của tôi bao gồm một số lượng lớn các cặp đầu vào-đầu ra.
Tuy nhiên, khi tôi đến thử nghiệm trên một số dữ liệu mới, dữ liệu này thường chỉ hoàn thành một phần. Ví dụ: nếu vectơ đầu vào có độ dài 100, chỉ 30 phần tử có thể được cung cấp các giá trị và phần còn lại là "không xác định".
Để làm ví dụ cho điều này, hãy xem xét nhận dạng hình ảnh trong đó người ta biết rằng một phần của hình ảnh bị chặn. Hoặc xem xét phân loại theo nghĩa chung nơi người ta biết rằng một phần của dữ liệu bị hỏng. Trong mọi trường hợp, tôi biết chính xác các phần tử trong vectơ dữ liệu là các phần chưa biết.
Tôi đang tự hỏi làm thế nào tôi có thể học một trình phân loại sẽ hoạt động cho loại dữ liệu này? Tôi chỉ có thể đặt các phần tử "chưa biết" thành một số ngẫu nhiên, nhưng cho rằng thường có nhiều phần tử chưa biết hơn các phần tử đã biết, điều này có vẻ không phải là một giải pháp tốt. Hoặc, tôi có thể thay đổi ngẫu nhiên các yếu tố trong dữ liệu huấn luyện thành "không xác định" và huấn luyện với các dữ liệu này thay vì dữ liệu hoàn chỉnh, nhưng điều này có thể yêu cầu lấy mẫu toàn bộ tất cả các kết hợp của các yếu tố đã biết và chưa biết.
Cụ thể tôi đang nghĩ về các mạng lưới thần kinh, nhưng tôi mở cho các phân loại khác.
Có ý kiến gì không? Cảm ơn!