Độ lệch và phương sai của bộ phân loại xác định mức độ mà nó có thể phù hợp và vượt quá dữ liệu tương ứng. Làm thế nào người ta có thể xác định một bộ phân loại được đặc trưng là độ lệch cao hoặc phương sai cao?
Tôi khá rõ ràng về sự đánh đổi sai lệch thiên vị và sự phân rã của nó là gì và làm thế nào nó có thể phụ thuộc vào dữ liệu đào tạo và mô hình. Chẳng hạn, nếu dữ liệu không chứa đủ thông tin liên quan đến hàm mục tiêu (chỉ đơn giản là đặt nó, thiếu mẫu), thì bộ phân loại sẽ có độ lệch cao do các giả định không chính xác có thể xảy ra. Ngược lại, nếu trình phân loại phù hợp chặt chẽ với dữ liệu đào tạo đã cho (giả sử ANN có nhiều nút chạy nhiều epoch hoặc cây quyết định có độ sâu cao), thì nó sẽ thể hiện phương sai cao vì nó không thể khái quát tốt để dự đoán không nhìn thấy mẫu.
Tuy nhiên, có những trường hợp tôi thấy các bài giảng nói về việc chọn một trình phân loại phương sai thấp sai lệch cao hoặc phân loại phương sai cao sai lệch thấp. Ví dụ, Bayes ngây thơ được coi là một phân loại phương sai thấp sai lệch cao (tôi cho rằng đó là do giả định độc lập có điều kiện). Làm thế nào để xác định điều này? Vậy làm thế nào một người sẽ đặc trưng cho SVM, ID3, Rừng ngẫu nhiên và NN? Họ thiên vị cao hay phương sai cao?