Tôi sử dụng Python để chạy một mô hình rừng ngẫu nhiên trên tập dữ liệu mất cân bằng của mình (biến mục tiêu là một lớp nhị phân). Khi tách tập dữ liệu huấn luyện và kiểm tra, tôi loay hoay có nên sử dụng lấy mẫu phân tầng (như mã được hiển thị) hay không. Cho đến nay, tôi đã quan sát trong dự án của mình rằng trường hợp phân tầng sẽ dẫn đến hiệu suất mô hình cao hơn. Nhưng tôi nghĩ rằng nếu tôi sẽ sử dụng mô hình của mình để dự đoán các trường hợp mới có thể rất khác nhau trong việc phân phối lớp mục tiêu với tập dữ liệu hiện tại của tôi. Vì vậy, tôi có xu hướng nới lỏng ràng buộc này và sử dụng phân chia chưa được phân loại. Bất cứ ai có thể tư vấn để làm rõ điểm này?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)