Có vẻ như bạn hiểu rằng bạn có thể có n
các cấp độ, trái ngược với n-1
, bởi vì không giống như trong hồi quy tuyến tính, bạn không cần phải lo lắng về tình trạng hoàn hảo.
(Tôi đang xem xét điều này từ phối cảnh R, nhưng tôi cho rằng nó giống với Python.) Điều đó phụ thuộc vào một vài điều, chẳng hạn như 1) gói nào bạn đang sử dụng và 2) bạn có bao nhiêu cấp độ yếu tố.
1) Nếu bạn đang sử dụng randomForest
gói R , thì nếu bạn có <33 cấp độ yếu tố thì bạn có thể tiếp tục và để chúng trong một tính năng nếu bạn muốn. Đó là bởi vì trong triển khai rừng ngẫu nhiên của R, nó sẽ kiểm tra xem mức độ yếu tố nào nên ở một bên của sự phân chia và bên kia (ví dụ: 5 cấp độ của bạn có thể được nhóm lại ở bên trái và 7 có thể được nhóm lại bên nhau bên phải). Nếu bạn chia tính năng phân loại ra thành các hình n
nộm, thì thuật toán sẽ không có tùy chọn này theo ý của nó.
Rõ ràng nếu gói đặc biệt bạn đang sử dụng không thể xử lý các tính năng phân loại thì bạn chỉ cần tạo n
các biến giả.
2) Như tôi đã nói ở trên, việc triển khai rừng ngẫu nhiên của R chỉ có thể xử lý 32 cấp độ yếu tố - nếu bạn có nhiều hơn mức đó thì bạn cần phải chia các yếu tố của mình thành các tập hợp nhỏ hơn hoặc tạo một biến giả cho mỗi cấp độ.
randomForest
được mã hóa tự động, tôi nên đi với ngườin
giả vì cộng tác không phải là vấn đề đối với RF?