CHAID vs CRT (hoặc GIỎ HÀNG)


23

Tôi đang chạy phân loại cây quyết định bằng SPSS trên tập dữ liệu với khoảng 20 dự đoán (phân loại với một vài loại). CHAID (Phát hiện tương tác tự động Chi bình phương) và CRT / GIỎI (Phân loại và cây hồi quy) đang cho tôi những cây khác nhau. Bất cứ ai cũng có thể giải thích giá trị tương đối của CHAID so với CRT? Ý nghĩa của việc sử dụng một phương pháp so với phương pháp khác là gì?

Câu trả lời:


23

Tôi sẽ liệt kê một số tài sản và sau đó cung cấp cho bạn thẩm định của tôi về giá trị của nó:

  • CHAID sử dụng phân chia nhiều đường theo mặc định (chia nhiều đường có nghĩa là nút hiện tại được chia thành nhiều hơn hai nút). Điều này có thể hoặc không thể mong muốn (nó có thể dẫn đến các phân đoạn tốt hơn hoặc giải thích dễ dàng hơn). Mặc dù vậy, những gì nó chắc chắn làm là làm mỏng kích thước mẫu trong các nút và do đó dẫn đến cây ít sâu hơn. Khi được sử dụng cho mục đích phân khúc, điều này có thể phản tác dụng sớm vì CHAID cần một cỡ mẫu lớn để hoạt động tốt. GIỜ không phân chia nhị phân (mỗi nút được chia thành hai nút con) theo mặc định.
  • CHAID được dự định để làm việc với các mục tiêu phân loại / rời rạc (XAID là để hồi quy nhưng có lẽ chúng đã được hợp nhất kể từ đó). GIỎI chắc chắn có thể làm hồi quy và phân loại.
  • CHAID sử dụng một ý tưởng cắt tỉa trước . Một nút chỉ được phân chia nếu một tiêu chí quan trọng được đáp ứng. Điều này liên quan đến vấn đề nêu trên là cần kích thước mẫu lớn vì thử nghiệm Chi-Square chỉ có ít năng lượng trong các mẫu nhỏ (được giảm hiệu quả hơn nữa bằng cách hiệu chỉnh Bonferroni cho nhiều thử nghiệm). Mặt khác, GIỎI trồng một cây lớn và sau đó tỉa cây lại thành phiên bản nhỏ hơn.
  • Do đó, CHAID cố gắng ngăn chặn quá mức ngay từ đầu (chỉ phân tách là có liên kết đáng kể), trong khi GIỎI có thể dễ dàng vượt quá trừ khi cây được cắt tỉa trở lại. Mặt khác, điều này cho phép GIỎ HÀNG hoạt động tốt hơn CHAID trong và ngoài mẫu (đối với kết hợp tham số điều chỉnh đã cho).
  • Sự khác biệt quan trọng nhất theo quan điểm của tôi là lựa chọn biến chialựa chọn điểm phân tách trong CHAID ít bị giới hạn mạnh như trong GIỎ HÀNG . Điều này phần lớn không liên quan khi cây được sử dụng để dự đoán nhưng là một vấn đề quan trọng khi cây được sử dụng để giải thích: Một cây có hai phần của thuật toán bị nhầm lẫn được cho là "sai lệch trong lựa chọn biến" (một tên không may) . Điều này có nghĩa là lựa chọn biến phân tách thích các biến có nhiều phân chia có thể có (giả sử số liệu dự đoán số liệu). GIỎI rất "thiên vị" theo nghĩa đó, CHAID không quá nhiều.
  • Với các phân chia thay thế, GIỎI biết cách xử lý các giá trị bị thiếu (phân chia thay thế có nghĩa là với các giá trị bị thiếu (NA) cho các biến dự đoán, thuật toán sử dụng các biến dự đoán khác không "tốt" như biến phân tách chính nhưng bắt chước các phân tách được tạo bởi chính bộ chia). CHAID không có điều đó afaik.

Vì vậy, tùy thuộc vào những gì bạn cần, tôi khuyên bạn nên sử dụng CHAID nếu mẫu có kích thước nào đó và các khía cạnh diễn giải quan trọng hơn. Ngoài ra, nếu chia nhiều đường hoặc cây nhỏ hơn, CHAID mong muốn sẽ tốt hơn. Mặt khác, Cart là một máy dự đoán hoạt động tốt, vì vậy nếu dự đoán là mục tiêu của bạn, tôi sẽ chọn GIỎ HÀNG.


1
(+1). Tổng quan đẹp. Bạn có thể giải thích "chia tách nhiều đường" và "chia tách thay thế" là gì không? Là chia nhiều đường nếu các phân chia không phân đôi?
COOLSerdash

1
@Momo: Cảm ơn rất nhiều vì câu trả lời được cập nhật. Liên quan đến việc chia tách nhiều đường, tôi đã tìm thấy tuyên bố thú vị sau đây từ Hastie et al. (2013) Các yếu tố của học thống kê : "[...] Mặc dù điều này [chia nhiều đường] đôi khi có thể hữu ích, nhưng đó không phải là một chiến lược chung tốt. [...] Vì việc chia nhiều đường có thể đạt được bằng một loạt nhị phân chia tách, cái sau được ưa thích hơn. " Tôi tự hỏi liệu điều này có thực sự rõ ràng như họ nói không (tôi không có nhiều kinh nghiệm với học máy) nhưng mặt khác, cuốn sách của họ được coi là một tài liệu tham khảo.
COOLSerdash

Có, một loạt các phân chia nhị phân có thể giống như phân chia nhiều đường. Họ cũng có thể khác nhau. Tôi có xu hướng đồng ý với tuyên bố. Một điều khác cần lưu ý là việc tìm kiếm các điểm phân tách với tìm kiếm toàn diện đơn giản hơn về mặt thuật toán và nhanh hơn cho các phân chia nhị phân của một nút nhất định.
Momo

Câu trả lời rất đầy đủ. Tôi đã sử dụng CHAID trong một reaserch với hơn 100.000 cơ sở dữ liệu. Ở cấp độ này, việc phân loại là rất chính xác nhưng tôi khuyên bạn nên thử vài lần với số lượng phân vùng khác nhau và mức độ sâu hơn của cây (phần mềm SPSS cho phép xác định tham số này trước đó). Điều này là do CHAID tạo ra các cây phân loại với một số grups (multisplit) và tệ hơn nhiều nếu cơ sở dữ liệu lớn. Coul'd cây cuối cùng là rất lớn. Cuối cùng, đừng quên sử dụng "kiểm soát nội bộ" phân chia mẫu của cơ sở dữ liệu. Xem thêm Hướng dẫn sử dụng cây phân loại SPSS có sẵn trên goo
user35523

Thế còn QUEST ??
Madhu Sareen

8

Tất cả các phương pháp một cây liên quan đến một số lượng lớn các so sánh đáng kinh ngạc mang lại kết quả không ổn định lớn. Đó là lý do tại sao để đạt được sự phân biệt dự đoán thỏa đáng, một số hình thức lấy trung bình của cây (đóng bao, tăng tốc, rừng ngẫu nhiên) là cần thiết (ngoại trừ việc bạn mất lợi thế của cây - khả năng diễn giải). Sự đơn giản của những cây đơn lẻ phần lớn chỉ là ảo ảnh. Chúng đơn giản bởi vì chúng sai theo nghĩa là đào tạo cây thành nhiều tập con lớn của dữ liệu sẽ tiết lộ sự bất đồng lớn giữa các cấu trúc cây.

Tôi đã không xem xét bất kỳ phương pháp CHAID nào gần đây nhưng CHAID trong phiên bản gốc của nó là một bài tập tuyệt vời trong việc diễn giải quá mức dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.