Loại bỏ các bản sao khỏi tập huấn luyện để phân loại

9

Hãy để chúng tôi nói rằng tôi có một loạt các hàng cho một vấn đề phân loại:

X_{1}, . . . X_{N}, Y

$X_1, ... X_N, Y$

Trong đó là các tính năng / dự đoán và là lớp kết hợp tính năng của hàng. $X_1, ..., X_N$ $Y$

Nhiều kết hợp tính năng và các lớp của chúng được lặp lại trong tập dữ liệu mà tôi đang sử dụng để phù hợp với trình phân loại. Tôi chỉ tự hỏi liệu có thể chấp nhận loại bỏ trùng lặp (về cơ bản tôi thực hiện một group by X1 ... XN Ytrong SQL)? Cảm ơn.

Tái bút

Đây là dữ liệu chỉ dành cho sự hiện diện nhị phân trong đó các linh mục lớp khá sai lệch

— cs0815
nguồn

13

Không, nó không được chấp nhận. Sự lặp lại là những gì cung cấp trọng lượng của bằng chứng.

Nếu bạn loại bỏ các bản sao của mình, cỏ bốn lá có ý nghĩa như cỏ ba lá thông thường, vì mỗi loại sẽ xuất hiện một lần, trong khi trong đời thực, có cỏ ba lá cho mỗi 10.000 lá thường.

Ngay cả khi các linh mục của bạn "khá lệch", như bạn nói, mục đích của tập huấn luyện là để tích lũy kinh nghiệm thực tế, điều mà bạn sẽ không đạt được nếu bạn mất thông tin tần số.

— Carlos Accioly
nguồn

1

$\frac{1}{4}^{th}$

Khi bạn triển khai trình phân loại đó thành dữ liệu hoàn toàn mới, nó có thể hoạt động kém đáng kinh ngạc nếu không có mẫu nào tương tự như mẫu 20% nói trên.

Luận điểm : Người ta có thể lập luận rằng tình huống này chỉ ra một bộ dữ liệu thiếu sót nhưng tôi nghĩ điều này đúng với các ứng dụng thực tế.

Loại bỏ trùng lặp cho Mạng nơ-ron, mô hình Bayes, vv không được chấp nhận.

— Rakshit Kothari
nguồn

Một giải pháp khả thi khác có thể là cân các bản sao thấp hơn dựa trên tần suất xuất hiện của chúng.

— Rakshit Kothari