Tôi muốn thực hiện kết hợp quá khổ và lấy mẫu thấp để cân bằng tập dữ liệu của mình với khoảng 4000 khách hàng được chia thành hai nhóm, trong đó một trong các nhóm có tỷ lệ khoảng 15%.
Tôi đã xem xét SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) và ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), nhưng cả hai đều tạo ra các mẫu tổng hợp mới bằng cách sử dụng các quan sát hiện có và ví dụ kNN.
Tuy nhiên, vì nhiều thuộc tính liên quan đến khách hàng là phân loại nên tôi không nghĩ rằng đây là cách phù hợp. Chẳng hạn, rất nhiều biến số của tôi như Vùng_A và Vùng_B là loại trừ lẫn nhau, nhưng sử dụng kNN, các quan sát mới có thể được đặt trong cả Vùng_A và Vùng_B. Bạn có đồng ý rằng đây là một vấn đề?
Trong trường hợp đó - làm thế nào để thực hiện quá mức trong R bằng cách nhân đôi các quan sát hiện có? Hay đây là cách sai để làm điều đó?