Tôi sẽ liệt kê một số tài sản và sau đó cung cấp cho bạn thẩm định của tôi về giá trị của nó:
- CHAID sử dụng phân chia nhiều đường theo mặc định (chia nhiều đường có nghĩa là nút hiện tại được chia thành nhiều hơn hai nút). Điều này có thể hoặc không thể mong muốn (nó có thể dẫn đến các phân đoạn tốt hơn hoặc giải thích dễ dàng hơn). Mặc dù vậy, những gì nó chắc chắn làm là làm mỏng kích thước mẫu trong các nút và do đó dẫn đến cây ít sâu hơn. Khi được sử dụng cho mục đích phân khúc, điều này có thể phản tác dụng sớm vì CHAID cần một cỡ mẫu lớn để hoạt động tốt. GIỜ không phân chia nhị phân (mỗi nút được chia thành hai nút con) theo mặc định.
- CHAID được dự định để làm việc với các mục tiêu phân loại / rời rạc (XAID là để hồi quy nhưng có lẽ chúng đã được hợp nhất kể từ đó). GIỎI chắc chắn có thể làm hồi quy và phân loại.
- CHAID sử dụng một ý tưởng cắt tỉa trước . Một nút chỉ được phân chia nếu một tiêu chí quan trọng được đáp ứng. Điều này liên quan đến vấn đề nêu trên là cần kích thước mẫu lớn vì thử nghiệm Chi-Square chỉ có ít năng lượng trong các mẫu nhỏ (được giảm hiệu quả hơn nữa bằng cách hiệu chỉnh Bonferroni cho nhiều thử nghiệm). Mặt khác, GIỎI trồng một cây lớn và sau đó tỉa cây lại thành phiên bản nhỏ hơn.
- Do đó, CHAID cố gắng ngăn chặn quá mức ngay từ đầu (chỉ phân tách là có liên kết đáng kể), trong khi GIỎI có thể dễ dàng vượt quá trừ khi cây được cắt tỉa trở lại. Mặt khác, điều này cho phép GIỎ HÀNG hoạt động tốt hơn CHAID trong và ngoài mẫu (đối với kết hợp tham số điều chỉnh đã cho).
- Sự khác biệt quan trọng nhất theo quan điểm của tôi là lựa chọn biến chia và lựa chọn điểm phân tách trong CHAID ít bị giới hạn mạnh như trong GIỎ HÀNG . Điều này phần lớn không liên quan khi cây được sử dụng để dự đoán nhưng là một vấn đề quan trọng khi cây được sử dụng để giải thích: Một cây có hai phần của thuật toán bị nhầm lẫn được cho là "sai lệch trong lựa chọn biến" (một tên không may) . Điều này có nghĩa là lựa chọn biến phân tách thích các biến có nhiều phân chia có thể có (giả sử số liệu dự đoán số liệu). GIỎI rất "thiên vị" theo nghĩa đó, CHAID không quá nhiều.
- Với các phân chia thay thế, GIỎI biết cách xử lý các giá trị bị thiếu (phân chia thay thế có nghĩa là với các giá trị bị thiếu (NA) cho các biến dự đoán, thuật toán sử dụng các biến dự đoán khác không "tốt" như biến phân tách chính nhưng bắt chước các phân tách được tạo bởi chính bộ chia). CHAID không có điều đó afaik.
Vì vậy, tùy thuộc vào những gì bạn cần, tôi khuyên bạn nên sử dụng CHAID nếu mẫu có kích thước nào đó và các khía cạnh diễn giải quan trọng hơn. Ngoài ra, nếu chia nhiều đường hoặc cây nhỏ hơn, CHAID mong muốn sẽ tốt hơn. Mặt khác, Cart là một máy dự đoán hoạt động tốt, vì vậy nếu dự đoán là mục tiêu của bạn, tôi sẽ chọn GIỎ HÀNG.