Làm thế nào để chọn số lượng phân chia trong rpart ()?


9

Tôi đã sử dụng rpart.controlcho minsplit=2, và nhận được kết quả sau từ rpart()chức năng. Để tránh làm quá dữ liệu, tôi có cần sử dụng chia 3 hoặc tách 7 không? Tôi không nên sử dụng chia 7? Làm ơn cho tôi biết.

Các biến thực sự được sử dụng trong xây dựng cây:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
Tôi đã trả lời điều này trong phần tiếp theo mà bạn đã đăng lên Q. Trước đó, không cần điều này. Tôi đã đề cập rằng bạn không nên chỉnh sửa Q để theo dõi để tham khảo trong tương lai !
Gavin Simpson

1
Để tránh tìm kiếm câu hỏi liên quan trong tương lai, đây là liên kết đến Q: stats.stackexchange.com/questions/13446/ trên .
chl

Câu trả lời:


10

Quy ước là sử dụng cây tốt nhất (lỗi tương đối xác thực chéo thấp nhất) hoặc cây nhỏ nhất (đơn giản nhất) trong một lỗi tiêu chuẩn của cây tốt nhất. Cây tốt nhất nằm ở hàng 8 (7 lần chia), nhưng cây ở hàng 7 (6 lần chia) thực hiện công việc tương tự ( xerrorđối với cây ở hàng 7 = 0,21761, nằm trong (nhỏ hơn) xerrorcây tốt nhất cộng với một tiêu chuẩn lỗi ,, xstd(0.21076 + 0.042196) = 0.252956) và đơn giản hơn, do đó quy tắc lỗi 1 tiêu chuẩn sẽ chọn nó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.