Là cây quyết định hầu như luôn luôn là cây nhị phân?


21

Gần như mọi ví dụ về cây quyết định mà tôi gặp đều là cây nhị phân. Đây có phải là khá phổ quát? Có phải hầu hết các thuật toán tiêu chuẩn (C4.5, GIỎI, v.v.) chỉ hỗ trợ cây nhị phân? Từ những gì tôi thu thập được, CHAID không giới hạn ở cây nhị phân, nhưng đó dường như là một ngoại lệ.

Một sự phân chia hai chiều theo sau là một sự phân chia hai chiều khác đối với một trong những đứa trẻ không giống như một sự phân chia ba chiều duy nhất. Đây có thể là một điểm học thuật, nhưng tôi đang cố gắng đảm bảo rằng tôi hiểu các trường hợp sử dụng phổ biến nhất.

Câu trả lời:


18

Đây chủ yếu là một vấn đề kỹ thuật: nếu bạn không giới hạn các lựa chọn nhị phân, đơn giản là có quá nhiều khả năng cho lần phân chia tiếp theo trong cây. Vì vậy, bạn chắc chắn đúng trong tất cả các điểm được thực hiện trong câu hỏi của bạn.

Xin lưu ý rằng hầu hết các thuật toán kiểu cây đều hoạt động theo từng bước và thậm chí như vậy không được đảm bảo để mang lại kết quả tốt nhất có thể. Đây chỉ là một cảnh báo thêm.

Đối với hầu hết các mục đích thực tế, mặc dù không phải trong quá trình xây dựng / cắt tỉa cây, hai loại phân chia là tương đương nhau, mặc dù, cho rằng chúng xuất hiện ngay sau nhau.


Chỉ để khuếch đại điểm đầu tiên của bạn: Số lượng phân chia có thể tăng lên theo cấp số nhân. Nếu bạn đang phân tách trên một biến liên tục có 1000 giá trị riêng biệt, có 999 phân tách nhị phân, nhưng phân tách nhị phân 999 * 998.
Peter Flom - Tái lập Monica

2
@Peter Có (1000-13-1)= =999*998/2 chia ternary, trên thực tế.
whuber

5

Sự phân chia hai chiều theo sau là sự phân chia hai chiều khác đối với một trong những đứa trẻ không giống như sự phân chia ba chiều

Tôi không chắc ý của bạn ở đây. Bất kỳ phân chia nhiều chiều có thể được biểu diễn dưới dạng một loạt các phân chia hai chiều. Để phân chia ba chiều, bạn có thể tách thành A, B và C bằng cách trước tiên tách thành A & B so với C và sau đó tách A khỏi B.

Một thuật toán nhất định có thể không chọn trình tự cụ thể đó (đặc biệt là, giống như hầu hết các thuật toán, nó tham lam), nhưng chắc chắn là có thể. Và nếu bất kỳ thủ tục ngẫu nhiên hoặc theo giai đoạn nào được thực hiện như trong các khu rừng ngẫu nhiên hoặc cây được tăng cường, cơ hội tìm thấy chuỗi phân chia phù hợp sẽ tăng lên. Như những người khác đã chỉ ra, việc phân chia nhiều cách là tốn kém về mặt tính toán, do đó, với những lựa chọn thay thế này, hầu hết các nhà nghiên cứu dường như đã chọn phân chia nhị phân.

Hi vọng điêu nay co ich


3
Có, tôi hiểu rằng A, B và C có thể đạt được bằng cách trước tiên tách thành A & B so với C và sau đó tách A khỏi B. Quan điểm của tôi thực sự là một thuật toán nhất định có thể không chọn chuỗi cụ thể đó.
Michael McGowan

2

Về việc sử dụng cây quyết định và chia tách (nhị phân so với cách khác), tôi chỉ biết CHAID có phân chia không nhị phân nhưng có khả năng khác. Đối với tôi, việc sử dụng chính của phân tách không nhị phân là trong các bài tập khai thác dữ liệu trong đó tôi đang xem làm thế nào để tối ưu hóa một biến danh nghĩa với nhiều cấp độ. Một loạt các phân chia nhị phân không hữu ích như một nhóm được thực hiện bởi CHAID.


Thật buồn cười khi bạn đề cập đến binning, bởi vì suy nghĩ về binning là điều khiến tôi bắt đầu tự hỏi về câu hỏi này (mặc dù tôi đã suy nghĩ về việc tạo các biến số thay vì các biến danh nghĩa).
Michael McGowan

@Michael, Có, nó cũng hoạt động nhưng bạn vứt bỏ thông tin. Tôi sử dụng nó khi tôi cần kết hợp các mức độ thưa thớt của một biến danh nghĩa - khi mô hình cuối cùng sẽ được thực hiện mà không có cách tiếp cận kiểu cây (nói hồi quy logistic hoặc SVM và nhiều biến giả thưa thớt gây ra vấn đề)
B_Miner

0

Xin vui lòng đọc này

Vì lý do thực tế (nổ tổ hợp), hầu hết các thư viện đều thực hiện các cây quyết định với các phân chia nhị phân. Điều tuyệt vời là chúng hoàn thành NP (Hyafil, Laurent và Ronald L. Rivest. "Xây dựng cây quyết định nhị phân tối ưu là NP hoàn chỉnh." Thư xử lý thông tin 5.1 (1976): 15-17.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.