Với chi phí quá đơn giản, các tính năng tiềm ẩn là các tính năng 'ẩn' để phân biệt chúng với các tính năng được quan sát. Các tính năng tiềm ẩn được tính toán từ các tính năng quan sát bằng cách sử dụng hệ số ma trận. Một ví dụ sẽ là phân tích tài liệu văn bản. 'từ' được trích xuất từ các tài liệu là các tính năng. Nếu bạn xác định dữ liệu của các từ bạn có thể tìm thấy 'chủ đề', trong đó 'topic' là một nhóm từ có liên quan về ngữ nghĩa. Hệ số hóa ma trận thứ hạng thấp ánh xạ một số hàng (các tính năng được quan sát) thành một tập hợp các hàng nhỏ hơn (các tính năng tiềm ẩn). Để giải thích, tài liệu có thể đã quan sát các tính năng (từ) như [thuyền buồm, schooner, yatch, tàu hơi nước, tàu tuần dương] sẽ 'nhân tố hóa' thành tính năng tiềm ẩn (chủ đề) như 'tàu' và 'thuyền'.
[thuyền buồm, schooner, yatch, tàu hơi nước, tàu tuần dương, ...] -> [tàu, thuyền]
Ý tưởng cơ bản là các tính năng tiềm ẩn có liên quan về mặt ngữ nghĩa 'tổng hợp' các tính năng được quan sát. Khi bạn có các tính năng quan sát quy mô lớn, chiều cao và ồn ào, việc xây dựng bộ phân loại của bạn trên các tính năng tiềm ẩn là điều hợp lý.
Tất nhiên đây là một mô tả đơn giản hóa để làm sáng tỏ khái niệm này. Bạn có thể đọc các chi tiết về các mô hình Phân bổ Dirichlet tiềm ẩn (LDA) hoặc các mô hình Phân tích ngữ nghĩa tiềm ẩn (pLSA) để có mô tả chính xác.