Như Steffen đã chỉ ra, ma trận ví dụ mã hóa số lần một từ xuất hiện trong một văn bản. Vị trí của mã hóa vào ma trận được cho bởi từ (vị trí cột trên ma trận) và bởi văn bản (vị trí hàng trên ma trận).
Bây giờ, thủ thuật băm hoạt động theo cùng một cách, mặc dù ban đầu bạn không phải xác định từ điển chứa vị trí cột cho mỗi từ.
Trong thực tế, chính hàm băm sẽ cung cấp cho bạn phạm vi vị trí cột có thể (hàm băm sẽ cung cấp cho bạn giá trị tối thiểu và tối đa có thể) và vị trí chính xác của từ bạn muốn mã hóa vào ma trận. Vì vậy, ví dụ, hãy tưởng tượng rằng từ "thích" được hàm băm của chúng ta băm vào số 5674, thì cột 5674 sẽ chứa các mã hóa liên quan đến từ "thích".
Theo cách như vậy, bạn sẽ không cần phải xây dựng một từ điển trước khi phân tích văn bản. Nếu bạn sẽ sử dụng một ma trận thưa thớt làm ma trận văn bản của mình, bạn thậm chí sẽ không phải xác định chính xác kích thước ma trận sẽ phải là bao nhiêu. Chỉ bằng cách quét văn bản, khi đang di chuyển, bạn sẽ chuyển đổi các từ thành vị trí cột bằng chức năng băm và ma trận văn bản của bạn sẽ được điền dữ liệu (tần số, nghĩa là) theo tài liệu bạn đang phân tích dần (vị trí hàng).