Nhiều thuật toán học máy, ví dụ như mạng nơ ron, sẽ xử lý các con số. Vì vậy, khi bạn có một dữ liệu phân loại, bạn cần chuyển đổi nó. Ý tôi là phân loại, ví dụ:
Thương hiệu xe hơi: Audi, BMW, Chevrolet ... ID người dùng: 1, 25, 26, 28 ...
Mặc dù id người dùng là số, nhưng chúng chỉ là nhãn và không có nghĩa là liên quan đến tính liên tục, như tuổi hoặc tổng tiền.
Vì vậy, cách tiếp cận cơ bản dường như sử dụng các vectơ nhị phân để mã hóa các danh mục:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Sẽ ổn khi có một vài danh mục, nhưng ngoài ra nó có vẻ hơi kém hiệu quả. Ví dụ: khi bạn có 10 000 id người dùng để mã hóa, đó là 10 000 tính năng.
Câu hỏi là, có cách nào tốt hơn không? Có lẽ một liên quan đến xác suất?