Train / Test Split sau khi thực hiện SMOTE


8

Tôi đang xử lý một dữ liệu không cân bằng cao, vì vậy tôi đã sử dụng thuật toán SMOTE để lấy mẫu lại tập dữ liệu.

Sau khi lấy mẫu lại SMote, tôi đã tách bộ dữ liệu được lấy mẫu lại thành tập huấn luyện / kiểm thử, sử dụng tập huấn luyện để xây dựng mô hình và tập kiểm thử để đánh giá mô hình.

Tuy nhiên, tôi lo lắng về việc một số điểm dữ liệu trong các bộ kiểm thử có thể thực sự bị xáo trộn từ các điểm dữ liệu trong tập huấn luyện (tức là thông tin bị rò rỉ từ tập huấn luyện sang tập kiểm thử), vì vậy tập kiểm thử không thực sự là một tập hợp sạch thử nghiệm.

Có ai có kinh nghiệm tương tự? Liệu thông tin thực sự rò rỉ từ đào tạo đến thử nghiệm? Hoặc thuật toán SMOTE thực sự quan tâm đến nó và chúng ta không phải lo lắng về nó?

Cảm ơn rất nhiều!

Câu trả lời:


13

Khi sử dụng bất kỳ kỹ thuật lấy mẫu nào (cụ thể là tổng hợp), bạn phân chia dữ liệu của mình trước và sau đó chỉ áp dụng lấy mẫu tổng hợp trên dữ liệu huấn luyện. Sau khi đào tạo, bạn sử dụng bộ kiểm tra (chỉ chứa các mẫu gốc) để đánh giá. Rủi ro nếu bạn sử dụng chiến lược của mình là có mẫu ban đầu trong đào tạo (thử nghiệm) và mẫu tổng hợp (được tạo dựa trên mẫu ban đầu này) trong bộ thử nghiệm (đào tạo).


1
Cảm ơn rất nhiều, chắc chắn hiểu quan điểm của bạn. Sau đó, tôi tự hỏi theo cách này, tôi sẽ không thể thực hiện xác nhận chéo n lần, phải không? Bởi vì dữ liệu của tôi rất nhỏ (đặc biệt là đối với lớp thiểu số), tôi đang cố gắng sử dụng càng nhiều trong số chúng càng tốt.
Edamame

3

Mỗi câu hỏi cuối cùng của bạn:

Sau đó, tôi tự hỏi theo cách này, tôi sẽ không thể thực hiện xác nhận chéo n lần, phải không? Bởi vì dữ liệu của tôi rất nhỏ (đặc biệt là đối với lớp thiểu số)

Đây không phải là sự thật. Bạn có thể thử upampling nếu dữ liệu của bạn thực sự nhỏ (nhưng nó nhỏ như thế nào?)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.