Tôi có một bộ dữ liệu nhị phân rất thiên vị - Tôi có nhiều ví dụ về lớp âm hơn 1000 lần so với lớp dương. Tôi muốn huấn luyện một Bộ quần áo cây (như Cây ngẫu nhiên bổ sung hoặc Rừng ngẫu nhiên) trên dữ liệu này nhưng thật khó để tạo bộ dữ liệu đào tạo có chứa đủ ví dụ về lớp tích cực.
Điều gì sẽ có ý nghĩa của việc thực hiện một phương pháp lấy mẫu phân tầng để bình thường hóa số lượng các ví dụ tích cực và tiêu cực? Nói cách khác, chẳng hạn, có phải là một ý tưởng tồi để làm tăng giả tạo (bằng cách lấy lại mẫu) số lượng các ví dụ lớp tích cực trong tập huấn luyện không?