Lựa chọn thiên vị trong cây


8

Trong mô hình dự đoán ứng dụng của Kuhn và Johnson, các tác giả viết:

Cuối cùng, những cây này bị sai lệch lựa chọn: các yếu tố dự đoán có số lượng giá trị riêng biệt cao hơn được ưa chuộng hơn các yếu tố dự đoán chi tiết hơn (Loh và Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh và Shih (1997) nhận xét rằng Nguy hiểm xảy ra khi một tập dữ liệu bao gồm một hỗn hợp các biến thông tin và nhiễu, và các biến nhiễu có nhiều phân tách hơn các biến thông tin. Sau đó, có khả năng cao là các biến nhiễu sẽ được chọn để phân chia các nút trên cùng của cây. Cắt tỉa sẽ tạo ra một cây có cấu trúc sai lệch hoặc không có cây nào cả.

Kuhn, Max; Johnson, Kjell (2013-05-17). Mô hình dự đoán ứng dụng (Địa điểm Kindle 5241-5247). Mùa xuân New York. Phiên bản Kindle.

Họ tiếp tục mô tả một số nghiên cứu về việc xây dựng những cây không thiên vị. Ví dụ mô hình HƯỚNG DẪN của Loh.

Duy trì nghiêm ngặt nhất có thể trong khung GIỎ HÀNG, tôi tự hỏi liệu tôi có thể làm gì để giảm thiểu sai lệch lựa chọn này không? Ví dụ, có lẽ phân cụm / nhóm các yếu tố dự đoán cardinality cao là một chiến lược. Nhưng ở mức độ nào người ta nên làm nhóm? Nếu tôi có một người dự đoán với 30 cấp độ, tôi có nên nhóm thành 10 cấp độ không? 15? 5?


Đây là một câu hỏi và câu trả lời liên quan .
dal233

1
Hãy nhớ rằng GIỎI không chỉ thiên vị so với các yếu tố có nhiều cấp độ, mà còn có khả năng biến liên tục nếu kích thước mẫu của bạn lớn. Có một lý do cụ thể nào bạn muốn ở trong khung GIỎ HÀNG không? Ngoài HƯỚNG DẪN, cây suy luận có điều kiện là một lựa chọn khác để tránh sai lệch lựa chọn.
dmartin

Ấn tượng của tôi là có nhiều mã ngoài lề được viết cho GIỎI và ngoài ra, tôi muốn giữ mọi thứ đơn giản để giải thích.
dal233

Khi tôi nói "tắt mã kệ viết cho GIỎI" - tôi cũng có nghĩa là toàn bộ hệ sinh thái xung quanh GIỎ HÀNG. Ví dụ như rpart.plot.
dal233

? ctree và bạn sẽ thấy gói tiệc có nhiều tính năng giống như rpart. Dữ liệu bị mất cũng được xử lý thông qua các phần chia thay thế
dmartin

Câu trả lời:


2

Dựa trên nhận xét của bạn, tôi sẽ sử dụng khung suy luận có điều kiện. Mã có sẵn trong R bằng cách sử dụng chức năng ctree trong gói bên. Nó có lựa chọn biến thiên vị, và trong khi thuật toán cơ bản khi và cách phân chia khác nhau so với GIỎI, logic về cơ bản là giống nhau. Một lợi ích khác được các tác giả nêu ra (xem bài báo ở đây ) là bạn không phải lo lắng quá nhiều về việc cắt tỉa cây để tránh bị thừa. Thuật toán thực sự quan tâm đến điều đó bằng cách sử dụng các phép thử hoán vị để xác định xem một phần tách có "có ý nghĩa thống kê" hay không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.