Làm thế nào để đối phó với các yếu tố với mức độ hiếm trong xác nhận chéo?


9

Giả sử trong phân tích hồi quy trong R, tôi có một biến độc lập loại yếu tố với 3 cấp độ trong tập dữ liệu đào tạo của tôi. Nhưng trong tập dữ liệu thử nghiệm, biến nhân tố tương tự có 5 cấp độ. Do đó, tôi không thể dự đoán các giá trị phản hồi cho tập dữ liệu thử nghiệm. Nên làm gì trong trường hợp này?


1
Đây không phải là chủ yếu về cách sử dụng R. & nếu chỉ nói về cách sử dụng R, thì nó sẽ lạc đề ở đây. Có một câu hỏi thống kê tốt ở đây, mặc dù.
gung - Phục hồi Monica

1
Bạn có thể vui lòng thêm một số dữ liệu mẫu? Nó sẽ dễ dàng hơn để giải quyết theo cách này.
Andrew Owens

Câu trả lời:


8

Như một suy nghĩ đầu tiên, điều này có nghĩa là ít nhất tập huấn luyện của bạn không đại diện cho dữ liệu ứng dụng. Liệu bộ kiểm tra có đại diện hay không là một câu hỏi mà bạn nên IMHO suy nghĩ rất kỹ. Trong bối cảnh này, điều quan trọng là phải tìm hiểu xem các lớp bị thiếu này có phải là vấn đề của tập huấn cụ thể quá nhỏ hay không, hay đây là một đặc điểm chung của vấn đề / nhiệm vụ / ứng dụng. Tức là, cho dù các lớp mới chưa từng gặp phải trước đây sẽ xuất hiện mọi lúc.

Về nguyên tắc, tôi thấy hai khả năng xử lý tình huống này:

  • Nói rằng tập huấn chắc chắn không đại diện và yêu cầu thêm dữ liệu, đặc biệt là dữ liệu của các lớp bị thiếu. Điều này có ý nghĩa trong trường hợp bạn đi đến kết luận rằng vấn đề nằm ở tập huấn luyện cụ thể, không phải với các đặc điểm chung của ứng dụng.

  • Trong mọi trường hợp, biết rằng dữ liệu đào tạo bỏ lỡ các lớp, tôi sẽ xem xét sử dụng một lớp phân loại một lớp. Tức là một trình phân loại xử lý từng lớp độc lập với bất kỳ lớp nào khác có thể. Lý tưởng nhất, một trình phân loại một lớp sẽ trả về "lớp không xác định" cho các trường hợp kiểm tra của các lớp chưa có sẵn để đào tạo. Đối với các trình phân loại một lớp, việc kiểm tra "từ chối" các trường hợp thuộc về các lớp thực sự chưa biết thực sự có ý nghĩa.


chỉnh sửa bình luận của wrt @ gung: Tôi cho rằng việc phân chia kiểm tra / thử nghiệm được khắc phục vì một số lý do hy vọng tốt .


Sẽ có ý nghĩa khi phân vùng dữ liệu của bạn theo từng cấp độ và sau đó kết hợp chúng vào các nếp gấp? Ví dụ, X1 có 2 cấp độ w / 90 & 10 dữ liệu; bạn có thể phân chia 10 thành 10 singletons và 90 thành 10 bộ 9, sau đó bạn kết hợp một bộ từ mỗi bộ để tạo thành 10 trong số 10 lần gấp của bạn cho CV. Đây là những gì tôi nghĩ đến khi tôi đọc Q, nhưng có vẻ như bạn không gợi ý điều đó. Đây có phải là một giải pháp hợp lệ? (Tôi có thể hỏi như một Q mới, nếu bạn thích.)
gung - Rebstate Monica

@gung: Tôi nghĩ một cách logic đó là một câu hỏi riêng biệt, vâng. Ngoài ra, tôi thấy một sự khác biệt lớn giữa tập huấn luyện không bao gồm tất cả các lớp và đảm bảo tất cả các lớp của một tập dữ liệu nhỏ nhất định sẽ hiển thị trong phần tách đào tạo và kiểm tra (= phân tầng).
cbeleites không hài lòng với SX
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.