Tôi thực sự đang viết một triển khai Rừng ngẫu nhiên nhưng tôi tin rằng câu hỏi dành riêng cho cây quyết định (không phụ thuộc vào RF).
Vì vậy, bối cảnh là tôi đang tạo một nút trong cây quyết định và cả hai biến dự đoán và biến đích đều liên tục. Nút có ngưỡng phân chia dữ liệu phân vùng thành hai bộ và tôi tạo dự đoán mới cho mỗi tập hợp con dựa trên giá trị mục tiêu trung bình trong mỗi bộ. Đây có phải là cách tiếp cận chính xác?
Lý do tôi hỏi là khi dự đoán các biến nhị phân, tôi tin rằng cách tiếp cận (chính xác?) Điển hình là chia dữ liệu thành các tập con 0 và 1 mà không lấy trung bình trên các hàng dữ liệu trong mỗi tập hợp con. Các phân chia tiếp theo sẽ phân chia thành các tập hợp hạt nhỏ hơn và lấy trung bình ở mỗi kết quả phân tách, các phân tách tiếp theo (hạ cây quyết định) hoạt động trên các biến hiện là biến liên tục thay vì biến nhị phân (vì chúng tôi đang hoạt động trên các giá trị lỗi còn lại thay vì ban đầu mục tiêu).
Câu hỏi phụ: Sự khác biệt giữa hai cách tiếp cận (nhị phân so với liên tục) có ý nghĩa - hay chúng thực sự sẽ cho kết quả giống hệt nhau cho một cây quyết định hoàn chỉnh?