Quá khổ với các biến phân loại


9

Tôi muốn thực hiện kết hợp quá khổ và lấy mẫu thấp để cân bằng tập dữ liệu của mình với khoảng 4000 khách hàng được chia thành hai nhóm, trong đó một trong các nhóm có tỷ lệ khoảng 15%.

Tôi đã xem xét SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) và ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), nhưng cả hai đều tạo ra các mẫu tổng hợp mới bằng cách sử dụng các quan sát hiện có và ví dụ kNN.

Tuy nhiên, vì nhiều thuộc tính liên quan đến khách hàng là phân loại nên tôi không nghĩ rằng đây là cách phù hợp. Chẳng hạn, rất nhiều biến số của tôi như Vùng_A và Vùng_B là loại trừ lẫn nhau, nhưng sử dụng kNN, các quan sát mới có thể được đặt trong cả Vùng_A và Vùng_B. Bạn có đồng ý rằng đây là một vấn đề?

Trong trường hợp đó - làm thế nào để thực hiện quá mức trong R bằng cách nhân đôi các quan sát hiện có? Hay đây là cách sai để làm điều đó?


Tại sao bạn cần lấy mẫu con nếu bạn chỉ có 4000 quan sát?
kjetil b halvorsen

Tôi muốn cân bằng tập dữ liệu của mình để có một phần các lớp gần bằng nhau. Nếu tôi sử dụng dữ liệu của mình như bây giờ, các mô hình sẽ chỉ dự đoán tất cả các quan sát là lớp đa số.
cướp biển

Câu trả lời:


8

ROSE và SMOTE được thiết kế để xử lý các biến phân loại, vì vậy, trừ khi các biến phân loại của bạn được thể hiện ở định dạng nhị phân, thông thường bạn không phải lo lắng về các quan sát tổng hợp được gán các tính năng phân loại loại trừ lẫn nhau. Nếu có, bạn luôn có thể cấu trúc lại chúng làm yếu tố.

Trong ví dụ hai vùng của bạn, bạn sẽ tạo một biến vùng mới với hai cấp độ, "A" và "B". Hồ sơ của bạn sẽ lấy các giá trị phù hợp bằng cách tham khảo các cột ban đầu của bạn.

Bây giờ, nếu bạn đang ở trong một tình huống mà các quan sát tổng hợp mới của bạn có thể tạo ra các danh mục xung đột vì chúng được trải rộng trên nhiều biến, nếu không thì các biến không liên quan (ví dụ: tổng hợp bảo tồn.isPig = 1 và tổng hợpObservation.hasWings = 1), bạn luôn có thể thực hiện một số dữ liệu bổ sung trước khi thực hiện ước lượng mô hình của bạn để làm sạch quang sai đó.

Ngoài ra, kể từ khi bạn có khoảng 600 quan sát sự kiện trong bộ dữ liệu của bạn, có thể xem xét các lợi ích tiềm năng của việc sử dụng quan sát tổng hợp có nguồn gốc thông qua undersampling lớp đa số?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.