Giảm số cấp của biến dự báo phân loại không có thứ tự


11

Tôi muốn đào tạo một trình phân loại, nói SVM, hoặc rừng ngẫu nhiên hoặc bất kỳ trình phân loại nào khác. Một trong những tính năng trong bộ dữ liệu là một biến phân loại với 1000 cấp độ. Cách tốt nhất để giảm số lượng các cấp trong biến này là gì. Trong R có một hàm được gọi combine.levels()trong gói H'misc , kết hợp các mức không thường xuyên, nhưng tôi đang tìm kiếm các đề xuất khác.


Là biến phân loại không có thứ tự? Bạn có bao nhiêu trường hợp? Phân phối tần số trên các biến phân loại là gì?
Jeromy Anglim

Các cấp độ không được ra lệnh. Tôi có khoảng 10.000 quan sát. Phân bố tần số như sau: mức A xuất hiện trong khoảng 11% các quan sát. Cấp B xuất hiện ở 8%. Mức c xuất hiện trong 5%. Khoảng 15 trong số các mức này bao gồm 50% các quan sát trong bộ dữ liệu.
sabunime

Câu trả lời:


9

Cách tốt nhất để làm điều này sẽ thay đổi rất nhiều tùy thuộc vào nhiệm vụ bạn đang thực hiện, vì vậy không thể nói điều gì sẽ tốt nhất theo cách độc lập với nhiệm vụ.

Có hai điều dễ dàng để thử nếu cấp độ của bạn là thứ tự:

  1. Bin họ. Ví dụ: 0 = (0 250), 1 = (251 500), v.v. Bạn có thể muốn chọn các giới hạn để mỗi thùng có số lượng mục bằng nhau.
  2. Bạn cũng có thể thực hiện chuyển đổi nhật ký của các cấp. Điều này sẽ squish phạm vi xuống.

Nếu các mức không theo thứ tự, bạn có thể phân cụm các cấp dựa trên các tính năng / biến khác trong tập dữ liệu của bạn và thay thế id cụm cho các cấp trước đó. Có nhiều cách để làm điều này như có các thuật toán phân cụm, vì vậy trường rộng mở. Khi tôi đọc nó, đây là những gì combine.levels()đang làm. Bạn có thể làm tương tự bằng cách sử dụng kmeans()hoặc prcomp(). (Sau đó, bạn có thể / nên đào tạo một trình phân loại để dự đoán các cụm cho các điểm dữ liệu mới.)


3
Tôi không biết một cách thực sự tốt để xử lý vấn đề này ngoài việc coi biến phân loại là một hiệu ứng ngẫu nhiên. Bạn có thể mô phỏng điều đó bằng cách sử dụng quy trình xử phạt bậc hai (sườn núi) trên biến. Cuốn sách Chiến lược mô hình hồi quy của tôi và ghi chú khóa học đi sâu vào vấn đề này.
Frank Harrell

1
@FrankHarrell Hai cách tiếp cận đến với tâm trí: Phân tích lớp tiềm ẩn biến POlytomous sẽ là một (cran.r-project.org/web/packages/poLCA/poLCA.pdf), phân tích tương ứng khác (ví dụ: statmethods.net/advstats/ca. html).
Mike Hunter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.