Được biết, khi xây dựng cây quyết định, chúng tôi sẽ phân tách biến đầu vào một cách triệt để và tìm cách phân chia 'tốt nhất' theo phương pháp kiểm tra thống kê hoặc phương pháp hàm tạp chất.
Câu hỏi của tôi là khi chúng ta sử dụng một biến liên tục làm biến đầu vào (chỉ một vài giá trị trùng lặp), số lượng phân chia có thể có thể rất lớn, để tìm ra sự phân chia 'tốt nhất' sẽ tốn thời gian. Làm thế nào các nhà khoa học dữ liệu đối phó với nó?
Tôi đã đọc một số tài liệu mà mọi người sẽ thực hiện một cụm các cấp độ đầu vào để hạn chế sự phân tách có thể. ( ví dụ ). Tuy nhiên, họ không giải thích nó được thực hiện như thế nào. Chúng ta dựa vào cái gì để phân cụm một biến đơn biến? Có bất kỳ tài nguyên để biết thêm chi tiết hoặc bất cứ ai có thể giải thích chi tiết?
Cảm ơn!