Làm thế nào để các thuật toán học cây quyết định xử lý các giá trị bị thiếu (dưới mui xe)

Các phương pháp mà các thuật toán học cây quyết định sử dụng để đối phó với các giá trị còn thiếu là gì.

Có phải họ chỉ đơn giản là điền vào chỗ trống trong việc sử dụng một giá trị được gọi là thiếu?

Cảm ơn.

missing-data cart

Có một số phương pháp được sử dụng bởi các cây quyết định khác nhau. Chỉ cần bỏ qua các giá trị bị thiếu (như ID3 và các thuật toán cũ khác) hoặc coi các giá trị bị thiếu là một loại khác (trong trường hợp tính năng danh nghĩa) không thực sự xử lý các giá trị bị thiếu. Tuy nhiên, những cách tiếp cận này đã được sử dụng trong giai đoạn đầu phát triển cây quyết định.

Các phương pháp xử lý thực tế đối với dữ liệu bị thiếu không sử dụng điểm dữ liệu với các giá trị bị thiếu trong đánh giá phân tách. Tuy nhiên, khi các nút con được tạo và huấn luyện, các trường hợp đó được phân phối bằng cách nào đó.

Tôi biết về các cách tiếp cận sau để phân phối các thể hiện giá trị bị thiếu cho các nút con:

tất cả đi đến nút đã có số lượng phiên bản lớn nhất (GIỎI, không phải là quy tắc chính)
phân phối cho tất cả trẻ em, nhưng với trọng lượng giảm dần, tỷ lệ thuận với số lượng phiên bản từ mỗi nút con (C45 và các nút khác)
phân phối ngẫu nhiên cho chỉ một nút con, cuối cùng theo phân phối phân loại (tôi đã thấy rằng trong các triển khai khác nhau của C45 và GIỎI cho thời gian chạy nhanh hơn)
xây dựng, sắp xếp và sử dụng các chất thay thế để phân phối các thể hiện cho một nút con, trong đó các chất thay thế là các tính năng đầu vào giống với cách tốt nhất tính năng kiểm tra gửi các thể hiện dữ liệu đến nút con trái hoặc phải (GIỎI, nếu thất bại, quy tắc đa số được sử dụng)

— rapaio
nguồn