Trong mô hình dự đoán ứng dụng của Kuhn và Johnson, các tác giả viết:
Cuối cùng, những cây này bị sai lệch lựa chọn: các yếu tố dự đoán có số lượng giá trị riêng biệt cao hơn được ưa chuộng hơn các yếu tố dự đoán chi tiết hơn (Loh và Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh và Shih (1997) nhận xét rằng Nguy hiểm xảy ra khi một tập dữ liệu bao gồm một hỗn hợp các biến thông tin và nhiễu, và các biến nhiễu có nhiều phân tách hơn các biến thông tin. Sau đó, có khả năng cao là các biến nhiễu sẽ được chọn để phân chia các nút trên cùng của cây. Cắt tỉa sẽ tạo ra một cây có cấu trúc sai lệch hoặc không có cây nào cả.
Kuhn, Max; Johnson, Kjell (2013-05-17). Mô hình dự đoán ứng dụng (Địa điểm Kindle 5241-5247). Mùa xuân New York. Phiên bản Kindle.
Họ tiếp tục mô tả một số nghiên cứu về việc xây dựng những cây không thiên vị. Ví dụ mô hình HƯỚNG DẪN của Loh.
Duy trì nghiêm ngặt nhất có thể trong khung GIỎ HÀNG, tôi tự hỏi liệu tôi có thể làm gì để giảm thiểu sai lệch lựa chọn này không? Ví dụ, có lẽ phân cụm / nhóm các yếu tố dự đoán cardinality cao là một chiến lược. Nhưng ở mức độ nào người ta nên làm nhóm? Nếu tôi có một người dự đoán với 30 cấp độ, tôi có nên nhóm thành 10 cấp độ không? 15? 5?