Tôi có một tập hợp lớn các vectơ đặc trưng mà tôi sẽ sử dụng để tấn công một vấn đề phân loại nhị phân (sử dụng scikit learn trong Python). Trước khi tôi bắt đầu suy nghĩ về việc cắt bỏ, tôi quan tâm đến việc cố gắng xác định từ các phần còn lại của dữ liệu nếu dữ liệu bị thiếu là "mất ngẫu nhiên" hoặc mất không ngẫu nhiên.
Một cách hợp lý để tiếp cận câu hỏi này là gì?
Hóa ra một câu hỏi hay hơn là hỏi liệu dữ liệu có bị "mất hoàn toàn ngẫu nhiên" hay không. Một cách hợp lý để làm điều đó là gì?