Giảm kích thước thông qua một cái gì đó như PCA sẽ hữu ích để có được ý tưởng về số lượng kích thước quan trọng để thể hiện dữ liệu của bạn.
Để kiểm tra các trường hợp phân loại sai, bạn có thể thực hiện phân cụm k-thô sơ của dữ liệu để có ý tưởng về việc dữ liệu thô của bạn sẽ phù hợp với các danh mục được đề xuất của bạn như thế nào. Mặc dù không tự động, hình dung ở giai đoạn này sẽ hữu ích, vì bộ não thị giác của bạn là một bộ phân loại mạnh mẽ trong chính nó.
Về mặt dữ liệu bị thiếu hoàn toàn, số liệu thống kê đã có nhiều kỹ thuật để xử lý tình huống đó, bao gồm cả việc cắt bỏ, lấy dữ liệu từ bộ hiện có hoặc bộ khác để điền vào các khoảng trống.