Nhiều thuật toán học hoặc học một trọng số cho mỗi tính năng hoặc chúng sử dụng khoảng cách giữa các mẫu. Cái trước là trường hợp cho các mô hình tuyến tính như hồi quy logistic, rất dễ giải thích.
Giả sử bạn có một tập dữ liệu chỉ có một tính năng phân loại duy nhất là "quốc tịch", với các giá trị "UK", "French" và "US". Giả sử, không mất tính tổng quát, các giá trị này được mã hóa thành 0, 1 và 2. Sau đó, bạn có trọng số w cho tính năng này trong trình phân loại tuyến tính, sẽ đưa ra một số quyết định dựa trên ràng buộc w × x + b> 0 hoặc tương đương w × x <b.
Vấn đề bây giờ là trọng lượng w không thể mã hóa lựa chọn ba chiều. Ba giá trị có thể có của w × x là 0, w và 2 × w. Cả ba điều này đều dẫn đến cùng một quyết định (tất cả đều <b hoặc ≥b) hoặc "Anh" và "Pháp" dẫn đến cùng một quyết định, hoặc "Pháp" và "Mỹ" đưa ra quyết định tương tự. Không có khả năng cho mô hình biết rằng "Vương quốc Anh" và "Hoa Kỳ" nên được đưa ra cùng một nhãn, với "tiếng Pháp" là số lẻ.
Bằng cách mã hóa một lần, bạn sẽ thổi bùng không gian tính năng thành ba tính năng một cách hiệu quả, mỗi tính năng sẽ có trọng số riêng, do đó, chức năng quyết định hiện là w [UK] x [UK] + w [FR] x [FR] + w [US] x [US] <b, trong đó tất cả các x là booleans. Trong không gian này, một hàm tuyến tính như vậy có thể biểu thị bất kỳ tổng / phân biệt nào của các khả năng (ví dụ: "UK hoặc US", có thể là một công cụ dự đoán cho ai đó nói tiếng Anh).
Tương tự, bất kỳ người học nào dựa trên các số liệu khoảng cách tiêu chuẩn (chẳng hạn như hàng xóm gần nhất k) giữa các mẫu sẽ bị nhầm lẫn mà không cần mã hóa một lần nóng. Với mã hóa ngây thơ và khoảng cách Euclide, khoảng cách giữa Pháp và Mỹ là 1. Khoảng cách giữa Mỹ và Anh là 2. Nhưng với mã hóa một nóng, khoảng cách theo cặp giữa [1, 0, 0], [0, 1 , 0] và [0, 0, 1] đều bằng √2.
Điều này không đúng với tất cả các thuật toán học tập; cây quyết định và các mô hình dẫn xuất như rừng ngẫu nhiên, nếu đủ sâu, có thể xử lý các biến phân loại mà không cần mã hóa một nóng.