Trong thói quen rpart () để tạo các mô hình GIỎI, bạn chỉ định tham số độ phức tạp mà bạn muốn cắt tỉa cây của mình. Tôi đã thấy hai khuyến nghị khác nhau để chọn tham số phức tạp:
Chọn tham số độ phức tạp liên quan đến lỗi xác thực chéo tối thiểu có thể có. Phương pháp này được khuyến nghị bởi Quick-R và HSAUR.
Chọn tham số độ phức tạp lớn nhất có lỗi xác thực chéo ước tính vẫn nằm trong SE của lỗi xác thực chéo tối thiểu có thể có. Đây là cách giải thích của tôi về tài liệu gói, trong đó nói: "Một lựa chọn tốt cho việc cắt tỉa thường là giá trị ngoài cùng mà giá trị trung bình nằm dưới đường nằm ngang" liên quan đến âm mưu này .
Hai lựa chọn của cp tạo ra các cây khá khác nhau trong tập dữ liệu của tôi.
Có vẻ như phương pháp đầu tiên sẽ luôn tạo ra một cây phức tạp hơn, có khả năng bị thừa. Có những ưu điểm, nhược điểm, khuyến nghị khác trong tài liệu, v.v. Tôi nên tính đến khi quyết định sử dụng phương pháp nào? Tôi có thể cung cấp thêm thông tin về vấn đề lập mô hình cụ thể của mình nếu điều đó hữu ích, nhưng tôi đang cố gắng giữ câu hỏi này đủ rộng để có liên quan đến những người khác.
party
gói sử dụng các bài kiểm tra quan trọng (thường không phải là thứ tôi khuyên dùng, nhưng có vẻ như có liên quan ở đây). Tuy nhiên, như mọi khi, thử nghiệm tốt nhất là hữu ích và ý nghĩa; Điều này đặc biệt đúng nếu bạn chủ yếu quan tâm đến giải thích.