Phân vùng cây trong R: party vs. rpart


15

Lâu lắm rồi tôi mới nhìn phân vùng cây. Lần trước tôi đã làm điều này, tôi thích tiệc tùng trong R (được tạo bởi Hothorn). Ý tưởng về suy luận có điều kiện thông qua lấy mẫu có ý nghĩa với tôi. Nhưng rpart cũng đã kháng cáo.

Trong ứng dụng hiện tại (tôi không thể cung cấp chi tiết, nhưng nó liên quan đến việc cố gắng xác định ai sẽ vào tù trong một số lượng lớn người bị bắt) Tôi không thể sử dụng các phương pháp tiên tiến như rừng ngẫu nhiên, đóng bao, tăng cường, v.v. - Tôi cần một cách dễ hiểu qui định.

Tôi cũng muốn có một số điều khiển thủ công về việc phân chia các nút, như được đề xuất trong Zhang & Singer (2010) Phân vùng đệ quy và ứng dụng . Phần mềm miễn phí đi kèm với cuốn sách đó cho phép điều này, nhưng mặt khác lại khá thô sơ trong đầu vào của người dùng.

Bất kỳ đề xuất hoặc đề xuất?

Câu trả lời:


8

Tôi đồng ý với @Iterator rằng phương pháp này dễ giải thích hơn cho rpart. Tuy nhiên, nếu bạn đang tìm kiếm các quy tắc dễ giải thích, bữa tiệc (không có cây có túi) sẽ không mất bất cứ điều gì liên quan đến việc giải thích dự đoán - bạn vẫn có một cây duy nhất. Nếu bạn cũng quan tâm đến việc xem xét các trình điều khiển của biến kết quả (không chỉ là sức mạnh dự đoán thuần túy) tôi vẫn sẽ nghĩ rằng bên đó là hướng đi - giải thích rằng một cây quyết định (như rpart) có thể khá thiên vị trong cách lựa chọn các biến là quan trọng và làm thế nào nó tạo ra sự phân chia. Đảng sử dụng các bài kiểm tra hoán vị và thống kê xác định biến nào là quan trọng nhất và cách phân chia được thực hiện. Vì vậy, thay vì thiên vị nghiêng về các biến phân loại với nhiều cấp độ, chẳng hạn như rpart chẳng hạn, bên sử dụng các kiểm tra thống kê để tìm cấu trúc tốt nhất.


1
Câu trả lời tốt đẹp. Tôi nghĩ rằng bạn đã đạt được một lý do rất chính đáng tại sao bữa tiệc lại tốt hơn cho khán giả cao cấp tại sao nên giáo dục khán giả để giúp họ chấp nhận sử dụng bữa tiệc.
Lặp lại

4

[NB: Xem bản cập nhật 1 bên dưới.] Tôi thấy rằng phương pháp rpartnày dễ giải thích hơn nhiều so với party. Tuy nhiên, cái sau tinh vi hơn nhiều và có khả năng đưa ra các mô hình tốt hơn. Cách tôi đôi khi giải thích partylà nói về nó như là cơ sở để sản xuất các mô hình tuyến tính (hoặc GLM) cục bộ. Tôi xây dựng điều này bằng cách chỉ ra rằng các kết quả cho rpartlà không đổi trên tất cả các phần tử rơi vào nút lá, tức là hộp / vùng giới hạn bởi các phần tách. Ngay cả khi có thể có những cải tiến thông qua các mô hình địa phương, bạn không nhận được bất cứ điều gì ngoài dự đoán liên tục.

Ngược lại, partyphát triển các phần tách để có khả năng tối ưu hóa các mô hình cho các khu vực. Nó thực sự sử dụng một tiêu chí khác với sự tối ưu của mô hình, nhưng bạn cần đánh giá năng lực của chính mình để giải thích sự khác biệt để xác định xem bạn có thể giải thích tốt hay không. Các bài báo dành cho nhà nghiên cứu khá dễ tiếp cận, nhưng có thể khá khó khăn đối với người không sẵn sàng xem xét các phương pháp đơn giản hơn như rừng ngẫu nhiên, tăng tốc, v.v. Về mặt toán học, tôi nghĩ rằng partynó phức tạp hơn ... Tuy nhiên, các mô hình GIỎI dễ dàng hơn giải thích, cả về phương pháp và kết quả, và những điều này cung cấp một bước đệm tốt để giới thiệu các mô hình dựa trên cây tinh vi hơn.

Nói tóm lại, tôi sẽ nói rằng bạn phải làm rpartcho rõ ràng và bạn có thể sử dụng partycho độ chính xác / hiệu quả, nhưng tôi sẽ không giới thiệu partymà không giới thiệu rpart.


Cập nhật 1. Tôi dựa trên câu trả lời của mình dựa trên sự hiểu biết của tôi partyvì nó là một hoặc hai năm trước. Nó đã phát triển khá nhiều, nhưng tôi sẽ sửa đổi câu trả lời của mình để nói rằng tôi vẫn khuyên bạn rpartvì sự ngắn gọn và di sản của nó, nên "không ưa thích" là một tiêu chí quan trọng cho khách hàng / cộng tác viên của bạn. Tuy nhiên, tôi sẽ cố gắng chuyển sang sử dụng nhiều chức năng hơn từ partysau khi đã giới thiệu cho ai đó rpart. Tốt hơn là bắt đầu nhỏ, với các hàm mất, tiêu chí phân tách, v.v., trong một bối cảnh đơn giản, trước khi giới thiệu một gói và phương pháp liên quan đến các khái niệm liên quan nhiều hơn.


2
Tôi nghĩ rằng bạn đang nhầm lẫn một chút về những gì partygói có thể làm. Hàm thuần túy partylàm cho chỉ một cây đơn giản giống như rpartđa số biểu quyết trong lá. Các mobchức năng trong partylà những gì xây dựng cây với các mô hình phức tạp hơn trong lá (và chọn chia dựa trên tham số bất ổn.)
Shea Parkes

1
@SheaParkes Bạn nói đúng. Đã được một lúc, và tôi không chắc là tôi chỉ sử dụng mobhay nếu phần còn lại của gói đã tăng lên một chút - chẳng hạn, tôi không nhớ đã nhìn thấy các khu rừng ngẫu nhiên trước đây. Tôi sẽ sửa lại câu trả lời của mình ...
Iterator

2
Và thật ra, tôi cũng đã quên một chút. Đó là ctreetạo một cây duy nhất, cforesttạo một khu rừng ngẫu nhiên và mobtạo ra các mô hình dựa trên lá. Và fyi, cforest là niềm vui, nhưng chậm khủng khiếp để dự đoán với.
Shea Parkes

Tôi sẽ xem xét mob , tôi không nghĩ nó tồn tại lần trước khi tôi sử dụng bữa tiệc . Các ứng dụng rừng không dành cho tôi, lần này.
Peter Flom - Tái lập Monica

@PeterFlom Tôi nghĩ mobcó thể đã ở đó từ đầu, hoặc ít nhất là sau đó ctree, tôi cho rằng. Đó là khoảng năm 2009 hoặc sớm hơn. Dù sao, chỉ cần chứng minh rằng tất cả chúng ta có thể học được điều gì đó mới trên SE. :)
Lặp lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.