Chọn tham số độ phức tạp trong GIỎ HÀNG


16

Trong thói quen rpart () để tạo các mô hình GIỎI, bạn chỉ định tham số độ phức tạp mà bạn muốn cắt tỉa cây của mình. Tôi đã thấy hai khuyến nghị khác nhau để chọn tham số phức tạp:

  1. Chọn tham số độ phức tạp liên quan đến lỗi xác thực chéo tối thiểu có thể có. Phương pháp này được khuyến nghị bởi Quick-R và HSAUR.

  2. Chọn tham số độ phức tạp lớn nhất có lỗi xác thực chéo ước tính vẫn nằm trong SE của lỗi xác thực chéo tối thiểu có thể có. Đây là cách giải thích của tôi về tài liệu gói, trong đó nói: "Một lựa chọn tốt cho việc cắt tỉa thường là giá trị ngoài cùng mà giá trị trung bình nằm dưới đường nằm ngang" liên quan đến âm mưu này .

Hai lựa chọn của cp tạo ra các cây khá khác nhau trong tập dữ liệu của tôi.

Có vẻ như phương pháp đầu tiên sẽ luôn tạo ra một cây phức tạp hơn, có khả năng bị thừa. Có những ưu điểm, nhược điểm, khuyến nghị khác trong tài liệu, v.v. Tôi nên tính đến khi quyết định sử dụng phương pháp nào? Tôi có thể cung cấp thêm thông tin về vấn đề lập mô hình cụ thể của mình nếu điều đó hữu ích, nhưng tôi đang cố gắng giữ câu hỏi này đủ rộng để có liên quan đến những người khác.


Đường ngang trong cốt truyện thể hiện điều gì?
Bogdanovist

Tôi tin rằng nó đại diện cho 1 SE trên lỗi xác thực chéo tối thiểu có thể.
một nửa vượt qua

Nếu bạn có đủ dữ liệu, bạn có thể thử tách nó thành tập dữ liệu huấn luyện và kiểm tra, ngay cả đối với cây. Điều này có thể đặc biệt hữu ích nếu bạn chủ yếu quan tâm đến dự đoán, vì bộ dữ liệu thử nghiệm sẽ đưa ra ước tính tốt về điều đó. Một lựa chọn khác là partygói sử dụng các bài kiểm tra quan trọng (thường không phải là thứ tôi khuyên dùng, nhưng có vẻ như có liên quan ở đây). Tuy nhiên, như mọi khi, thử nghiệm tốt nhất là hữu ích và ý nghĩa; Điều này đặc biệt đúng nếu bạn chủ yếu quan tâm đến giải thích.
Peter Flom - Tái lập Monica

Tôi xin lỗi vì phản ứng chậm. Để làm rõ, tôi nghĩ rằng, bằng cách sử dụng xác thực chéo để tính toán lỗi ở các kích thước cây khác nhau, tôi đã phân tách dữ liệu nhiều lần thành các tập huấn luyện và kiểm tra một cách hiệu quả. Sẽ thực hiện một phân chia đào tạo / kiểm tra khác là dư thừa trong trường hợp đó? Có phải tôi đang hiểu lầm bạn?
một nửa vượt qua

Chia dữ liệu trong đào tạo / kiểm tra và xác thực chéo tham số cp chỉ sử dụng dữ liệu tàu, sẽ tái tạo thử nghiệm dự đoán thực tế (nơi bạn không thể sử dụng dữ liệu trong tương lai để ước tính cp). Vì vậy, CV đầu tiên sẽ dành cho cp, lỗi dự đoán cho mô hình tổng thể (bao gồm cả cp ước tính).
Robert Kubrick

Câu trả lời:


6

Trong thực tế tôi đã thấy cả hai cách tiếp cận được thực hiện và tôi nghĩ rằng nhìn chung kết quả của bạn sẽ không được dự kiến ​​sẽ khác nhau nhiều.

Điều đó đang được nói, Hastie et al đề xuất quy tắc "lỗi một tiêu chuẩn" trong các yếu tố của học thống kê và tôi có xu hướng tin tưởng vào phán đoán của họ (Mục 7.10, trang 244 trong phiên bản của tôi). Các trích dẫn có liên quan là:

Thông thường, quy tắc "một lỗi tiêu chuẩn" được sử dụng với xác thực chéo, trong đó chúng tôi chọn mô hình đáng chú ý nhất có lỗi không quá một lỗi tiêu chuẩn so với lỗi của mô hình tốt nhất. "

Trực giác của bạn về lý do tại sao một người sẽ tuân theo quy tắc lỗi một tiêu chuẩn là đúng - bạn sẽ làm điều đó để tránh việc chọn một mô hình phù hợp với dữ liệu.


1

Trước tiên bạn nên bắt đầu bằng cách sử dụng các đối số minsplit=0cp=0(tham số độ phức tạp) sau đó sử dụng các hàm plotcp(T.max)printcp(T.max)chọn giá trị của cplỗi tương đối tối thiểu tương ứng và tỉa cây theo hàmprune.rpart(T.max, cp=....)

Điều này sẽ giúp bạn có được cây phân loại tối ưu vì chúng có xu hướng quá lạc quan.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.