Mã hóa một Hot cho số lượng lớn các giá trị


7

Làm thế nào để chúng ta sử dụng một mã hóa nóng nếu số lượng giá trị mà một biến phân loại có thể lấy là lớn?

Trong trường hợp của tôi, nó là 56 giá trị. Vì vậy, theo phương pháp thông thường, tôi sẽ phải thêm 56 cột (56 tính năng nhị phân) trong tập dữ liệu huấn luyện, điều này sẽ làm tăng sự phức tạp và do đó thời gian đào tạo.

Vậy làm thế nào để chúng ta đối phó với các trường hợp như vậy?


3
Nhìn vào tính năng băm
Emre

Bạn sử dụng thuật toán gì? SGD có thể xử lý hàng trăm ngàn tính năng trên hàng trăm nghìn hàng dữ liệu trong vài phút trên máy tính xách tay.
Diego

Câu trả lời:


9

Nếu bạn thực sự quan tâm đến số lượng kích thước, bạn vẫn có thể thử áp dụng thuật toán giảm kích thước, chẳng hạn như PCA (Phân tích thành phần chính) hoặc LDA (Phân tích phân biệt tuyến tính), sau một lần mã hóa nóng.

Nhưng hãy biết rằng "56 tính năng" không thực sự lớn và nó rất phổ biến trong ngành để có hàng ngàn, hàng triệu hoặc thậm chí hàng tỷ tính năng.


Có bình thường khi có 50 tính năng và 60 danh mục sử dụng RNN không?
Boppity Bop

2

Bạn có thể thử giảm độ mờ của 56 tính năng kết quả giả, nếu bạn có một số danh mục đại diện cho một tỷ lệ nhỏ so với đa số bằng cách dán nhãn chúng giống nhau.


Có cách nào để tìm ra những tính năng nào nên được ghép lại với nhau không, bởi vì trong trường hợp của tôi, tất cả các tính năng đều ít nhiều quan trọng như nhau ..?
mach

Hãy thử những cái với tần suất nhỏ!
Alexandru Daia

... Hoặc bạn có thể làm cho các giá trị chi tiết hơn. ví dụ: Đông Bắc, giữa đại tây dương, v.v. thay vì 50 tiểu bang. Có bất kỳ loại kiến ​​thức tên miền nào bạn có thể sử dụng để hợp nhất các yếu tố nhất định lại với nhau không?

1
Làm thế nào để bạn biết rằng tất cả các giá trị phân loại đều quan trọng như nhau? Phương pháp của bạn là gì ... bạn đã làm tương quan Pearson với mục tiêu, hồi quy lasso, cây quyết định, ...? Làm thế nào để bạn đánh giá tầm quan trọng tính năng?
AN6U5

-1

Khi có số lượng lớn các biến phân loại, nên làm một so với phần còn lại.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.