Câu trả lời:
Như tôi đã tìm thấy trong Giới thiệu về Khai thác dữ liệu của Tan et. al:
Các nghiên cứu đã chỉ ra rằng việc lựa chọn biện pháp tạp chất ít ảnh hưởng đến hiệu suất của các thuật toán cảm ứng cây quyết định. Điều này là do nhiều biện pháp tạp chất khá phù hợp với nhau [...]. Thật vậy, chiến lược được sử dụng để cắt tỉa cây có tác động lớn hơn đến cây cuối cùng so với việc lựa chọn biện pháp tạp chất.
Do đó, bạn có thể chọn sử dụng chỉ mục Gini như GIỎ HÀNG hoặc Entropy như C4.5.
Tôi sẽ sử dụng Entropy, cụ thể hơn là Tỷ lệ tăng của C4.5 vì bạn có thể dễ dàng theo dõi cuốn sách được viết tốt bởi Quinlan: Chương trình C4.5 cho Học máy.