Tôi muốn biết nếu có bất kỳ / một số lợi thế của việc sử dụng lấy mẫu phân tầng thay vì lấy mẫu ngẫu nhiên, khi tách tập dữ liệu gốc thành tập huấn luyện và kiểm tra để phân loại.
Ngoài ra, lấy mẫu phân tầng có đưa ra nhiều sai lệch vào phân loại hơn so với lấy mẫu ngẫu nhiên không?
Ứng dụng mà tôi muốn sử dụng lấy mẫu phân tầng để chuẩn bị dữ liệu, là một trình phân loại Rừng ngẫu nhiên, được đào tạo về của bộ dữ liệu ban đầu. Trước khi phân loại, cũng có một bước tạo thế hệ mẫu tổng hợp (SMOTE [1]) để cân bằng kích thước của các lớp.
[1] Chawla, Nitesh V., et al. " SMote: kỹ thuật lấy mẫu quá mức tổng hợp thiểu số. " Tạp chí Nghiên cứu Trí tuệ Nhân tạo 16 (2002): 321-357.