Rpart chỉ cung cấp chia tách đơn biến. Tôi tin rằng, dựa trên câu hỏi của bạn, rằng bạn không hoàn toàn quen thuộc với sự khác biệt giữa phương pháp phân vùng đơn biến và phương pháp phân vùng đa biến. Tôi đã làm hết sức mình để giải thích điều này dưới đây, cũng như cung cấp một số tài liệu tham khảo để nghiên cứu thêm và đề xuất một số gói R để thực hiện các phương pháp này.
Rpart là một trình phân loại dựa trên cây sử dụng phân vùng đệ quy. Với các phương pháp phân vùng, bạn phải xác định các điểm trong dữ liệu của mình để thực hiện phân tách. Thuật toán rpart trong R thực hiện điều này bằng cách tìm biến và điểm phân tách tốt nhất (và do đó làm giảm) RSS. Bởi vì các phân chia chỉ xảy ra dọc theo một biến tại một thời điểm, đây là các phân chia đơn biến. Phân chia nhiều biến thường được định nghĩa là phân vùng đồng thời dọc theo nhiều trục (do đó đa biến), tức là nút rpart đầu tiên có thể phân chia theo Tuổi> 35, nút thứ hai có thể phân chia theo Thu nhập> 25.000 và nút thứ ba có thể phân chia dọc theo Thành phố phía tây Mississippi. Các nút thứ hai và thứ ba được phân chia trên các tập hợp con nhỏ hơn của dữ liệu tổng thể, vì vậy trong nút thứ hai, tiêu chí thu nhập tốt nhất chỉ phân chia RSS cho những người có độ tuổi trên 35, nó không áp dụng cho các quan sát không tìm thấy trong nút này, áp dụng tương tự cho tiêu chí Thành phố. Người ta có thể tiếp tục làm điều này cho đến khi có một nút cho mỗi quan sát trong tập dữ liệu của bạn (rpart sử dụng hàm kích thước nhóm tối thiểu bên cạnh tiêu chí kích thước nút tối thiểu và tham số cp là giá trị r bình phương tối thiểu phải tăng để tiếp tục lắp).
Một phương pháp đa biến, chẳng hạn như Phương pháp quy nạp bệnh nhân (gói gốc trong R) sẽ đồng thời phân tách bằng cách chọn, ví dụ: Tất cả các Quan sát trong đó Thu nhập lớn hơn 22.000, Tuổi> 32 và Thành phố phía tây Atlanta. Lý do tại sao sự phù hợp có thể khác nhau là vì tính toán cho sự phù hợp là đa biến thay vì đơn biến, sự phù hợp của ba tiêu chí này được tính dựa trên sự phù hợp đồng thời của ba biến số trên tất cả các quan sát đáp ứng các tiêu chí này thay vì phân vùng lặp chia tách đơn biến (như với rpart).
Có nhiều niềm tin khác nhau liên quan đến hiệu quả của các phương pháp phân vùng đơn biến so với đa biến. Nói chung những gì tôi đã thấy trong thực tế, là hầu hết mọi người thích phân vùng đơn biến (chẳng hạn như rpart) cho mục đích giải thích (nó chỉ được sử dụng trong dự đoán khi xử lý một vấn đề trong đó cấu trúc được xác định rất rõ và sự thay đổi giữa các biến là khá không đổi, đây là lý do tại sao chúng thường được sử dụng trong y học). Các mô hình cây đơn biến thường được kết hợp với người học tập hợp khi được sử dụng để dự đoán (tức là Rừng ngẫu nhiên). Những người sử dụng phân vùng đa biến hoặc phân cụm (liên quan rất chặt chẽ đến phân vùng đa biến) thường làm như vậy đối với các vấn đề phức tạp mà các phương pháp đơn biến rất phù hợp và chủ yếu để dự đoán hoặc phân tích các quan sát thành các loại.
Tôi đánh giá cao cuốn sách của Julian Faraway, Mở rộng mô hình tuyến tính với R. Chương 13 dành riêng cho việc sử dụng Cây xanh (tất cả đều không biến đổi). Nếu bạn quan tâm hơn nữa đến các phương pháp đa biến, Các yếu tố của học thống kê của Hastie et. al, cung cấp một cái nhìn tổng quan tuyệt vời về nhiều phương pháp đa biến, bao gồm PRIM (mặc dù Friedman tại Stanford có bài viết gốc về phương pháp được đăng trên trang web của mình), cũng như các phương pháp phân cụm.
Liên quan đến Gói R để sử dụng các phương thức này, tôi tin rằng bạn đã sử dụng gói rpart và tôi đã đề cập đến gói gốc ở trên. Có nhiều cách xây dựng theo thói quen phân cụm và tôi khá thích gói tiệc được đề cập bởi một người khác trong chủ đề này, vì nó thực hiện suy luận có điều kiện trong quá trình xây dựng cây quyết định. Gói optpart cho phép bạn thực hiện phân vùng nhiều biến số và gói mvpart (cũng được người khác đề cập) cho phép bạn thực hiện các cây rpart đa biến, tuy nhiên cá nhân tôi thích sử dụng partDSA, cho phép bạn kết hợp các nút sâu hơn trong cây của mình để giúp ngăn phân vùng tương tự các quan sát, nếu tôi cảm thấy rpart và bữa tiệc không phù hợp với mục đích làm người mẫu của tôi.
Lưu ý: Trong ví dụ của tôi về cây rpart trong đoạn 2, tôi mô tả cách phân vùng hoạt động với số nút, nếu ai đó rút ra cây này, thì việc phân vùng sẽ tiến sang bên trái nếu quy tắc chia tách là đúng, tuy nhiên trong RI tin rằng sự phân chia thực sự tiến tới bên phải nếu quy tắc là đúng.