Tôi đang vật lộn để tìm một phương pháp để giảm số lượng danh mục trong dữ liệu danh nghĩa hoặc thứ tự.
Ví dụ: giả sử tôi muốn xây dựng mô hình hồi quy trên tập dữ liệu có một số yếu tố danh nghĩa và thứ tự. Mặc dù tôi không gặp vấn đề gì với bước này, tôi thường gặp phải tình huống trong đó một tính năng danh nghĩa không có các quan sát trong tập huấn luyện, nhưng sau đó tồn tại trong tập dữ liệu xác nhận. Điều này tự nhiên dẫn đến và lỗi khi mô hình được trình bày với (cho đến nay) các trường hợp không nhìn thấy. Một tình huống khác mà tôi muốn kết hợp các danh mục đơn giản là khi có quá nhiều danh mục với một vài quan sát.
Vì vậy, câu hỏi của tôi là:
- Trong khi tôi nhận ra rằng có thể tốt nhất để kết hợp nhiều danh mục (và thứ tự) danh nghĩa dựa trên thông tin cơ bản trong thế giới thực mà họ đại diện, có phương pháp hệ thống (
R
tốt nhất là gói) có sẵn không? - Những hướng dẫn và đề xuất nào bạn sẽ đưa ra về các ngưỡng giới hạn, v.v.
- Các giải pháp phổ biến nhất trong văn học là gì?
- Có chiến lược nào khác ngoài việc kết hợp các danh mục nhỏ trên danh mục mới, một loại "KHÁC" không?
Xin vui lòng bấm chuông nếu bạn cũng có đề xuất khác.