Tôi đã nhiều lần phân tích một bộ dữ liệu mà tôi thực sự không thể thực hiện bất kỳ loại phân loại nào. Để xem liệu tôi có thể có được một trình phân loại hay không, tôi thường sử dụng các bước sau:
- Tạo các ô hộp của nhãn so với các giá trị số.
- Giảm kích thước xuống 2 hoặc 3 để xem các lớp có thể tách rời hay không, đôi khi cũng đã thử LDA.
- Cố gắng hết sức để phù hợp với các SVM và Rừng ngẫu nhiên và xem xét mức độ quan trọng của tính năng để xem các tính năng có ý nghĩa gì hay không.
- Cố gắng thay đổi sự cân bằng của các lớp và kỹ thuật như lấy mẫu dưới mức và lấy mẫu quá mức để kiểm tra xem sự mất cân bằng của lớp có thể là một vấn đề hay không.
Có nhiều cách tiếp cận khác tôi có thể nghĩ ra, nhưng chưa thử. Đôi khi tôi biết rằng các tính năng này không tốt và hoàn toàn không liên quan đến nhãn mà chúng tôi đang cố gắng dự đoán. Sau đó tôi sử dụng trực giác kinh doanh đó để kết thúc bài tập, kết luận rằng chúng ta cần các tính năng tốt hơn hoặc các nhãn hoàn toàn khác nhau.
Câu hỏi của tôi là làm thế nào để một Nhà khoa học dữ liệu báo cáo rằng việc phân loại không thể được thực hiện với các tính năng này. Có cách thống kê nào để báo cáo điều này hoặc điều chỉnh dữ liệu trong các thuật toán khác nhau trước tiên và xem số liệu xác nhận là lựa chọn tốt nhất?