Ý nghĩa của các tính năng tiềm ẩn?


24

Tôi đang tìm hiểu về nhân tố ma trận cho các hệ thống đề xuất và tôi đang thấy thuật ngữ này latent featuresxảy ra quá thường xuyên nhưng tôi không thể hiểu ý nghĩa của nó. Tôi biết tính năng là gì nhưng tôi không hiểu ý tưởng về các tính năng tiềm ẩn. Xin vui lòng giải thích nó? Hoặc ít nhất là chỉ cho tôi một tờ giấy / nơi tôi có thể đọc về nó?


Các biến tiềm ẩn cho phép hiển thị các mô hình mạnh hơn về mặt những gì có thể được mô hình hóa. Tùy thuộc vào dữ liệu và thuật toán để xác định giá trị của chúng. Nói cách khác, các biến tiềm ẩn giống như "bước" thu hẹp khoảng cách giữa các biến quan sát của bạn và dự đoán mong muốn. "Khoảng cách" này càng rộng thì các biến tiềm ẩn càng hữu ích.
Vladislavs Dovgalecs

Câu trả lời:


25

Với chi phí quá đơn giản, các tính năng tiềm ẩn là các tính năng 'ẩn' để phân biệt chúng với các tính năng được quan sát. Các tính năng tiềm ẩn được tính toán từ các tính năng quan sát bằng cách sử dụng hệ số ma trận. Một ví dụ sẽ là phân tích tài liệu văn bản. 'từ' được trích xuất từ ​​các tài liệu là các tính năng. Nếu bạn xác định dữ liệu của các từ bạn có thể tìm thấy 'chủ đề', trong đó 'topic' là một nhóm từ có liên quan về ngữ nghĩa. Hệ số hóa ma trận thứ hạng thấp ánh xạ một số hàng (các tính năng được quan sát) thành một tập hợp các hàng nhỏ hơn (các tính năng tiềm ẩn). Để giải thích, tài liệu có thể đã quan sát các tính năng (từ) như [thuyền buồm, schooner, yatch, tàu hơi nước, tàu tuần dương] sẽ 'nhân tố hóa' thành tính năng tiềm ẩn (chủ đề) như 'tàu' và 'thuyền'.

[thuyền buồm, schooner, yatch, tàu hơi nước, tàu tuần dương, ...] -> [tàu, thuyền]

Ý tưởng cơ bản là các tính năng tiềm ẩn có liên quan về mặt ngữ nghĩa 'tổng hợp' các tính năng được quan sát. Khi bạn có các tính năng quan sát quy mô lớn, chiều cao và ồn ào, việc xây dựng bộ phân loại của bạn trên các tính năng tiềm ẩn là điều hợp lý.

Tất nhiên đây là một mô tả đơn giản hóa để làm sáng tỏ khái niệm này. Bạn có thể đọc các chi tiết về các mô hình Phân bổ Dirichlet tiềm ẩn (LDA) hoặc các mô hình Phân tích ngữ nghĩa tiềm ẩn (pLSA) để có mô tả chính xác.


"Các tính năng tiềm ẩn được tính toán từ các tính năng được quan sát bằng cách sử dụng hệ số ma trận." Là tính toán sử dụng nhân tố ma trận là một điều kiện cần thiết để một số lượng được coi là tiềm ẩn?
Flow2k

5

Giả sử bạn có (MxN)ma trận thưa thớt, trong đó M- là viết tắt của số lượng người dùng đã đưa ra đề xuất và Nlà số lượng mục được đề xuất. Phần tử của ma trận là khuyến nghị được đưa ra, với một số phần tử bị thiếu, nghĩa là được dự đoán.xtôij

Sau đó, ma trận của bạn có thể được "nhân tố hóa", thông qua việc giới thiệu K"các yếu tố tiềm ẩn", để thay vì một ma trận bạn có hai: - cho (MxK)người dùng và (KxN)- đối với các mục, phép nhân ma trận tạo ra ma trận gốc.

Cuối cùng, cho câu hỏi của bạn: các tính năng tiềm ẩn trong nhân tố ma trận là gì? Chúng là các tính năng chưa biết ( K) trong thị hiếu người dùng và các mục được đề xuất, do đó khi hai ma trận này nhân lên, chúng tạo ra ma trận các khuyến nghị đã biết. Các trọng số riêng (tùy chọn của người dùng đối với một tính năng cụ thể và số lượng tính năng trong một mặt hàng cụ thể) được xác định thông qua cái gọi là xen kẽ bình phương tối thiểu, thông tin thêm về bạn có thể đọc ở đây


3

Dường như với tôi, các tính năng tiềm ẩn là một thuật ngữ được sử dụng để mô tả các tiêu chí để phân loại các thực thể theo cấu trúc của chúng, nói cách khác, theo các tính năng (đặc điểm) mà chúng chứa, thay vì các lớp chúng thuộc về. Ý nghĩa của từ "tiềm ẩn" ở đây rất có thể giống với ý nghĩa của nó trong khoa học xã hội, trong đó biến tiềm ẩn rất phổ biến ( http://en.wikipedia.org/wiki/Latent_variable ) có nghĩa là biến không quan sát được (khái niệm).

Phần "Giới thiệu" trong bài viết sau đây cung cấp một giải thích tốt về ý nghĩa tiềm ẩn của các tính năng tiềm ẩn và sử dụng trong mô hình hóa các hiện tượng khoa học xã hội: http://epage.nips.cc/apers/3846-nonparametric-latent-feature-models-for- liên kết dự đoán.pdf .


Tôi đã đọc phần giới thiệu trong bài báo mà bạn tham khảo nhưng không thấy nó rất hữu ích trong việc tìm hiểu khái niệm về các tính năng tiềm ẩn.
Sẽ

@ Sẽ thoải mái đề xuất (các) nguồn với giải thích tốt hơn.
Alexanderr Blekh


@ Sẽ cảm ơn bạn. Tôi đồng ý - đó là một lời giới thiệu / giải thích khá hay (mặc dù, tôi chắc chắn rằng có nhiều câu hỏi hay khác nằm rải rác ngoài kia).
Alexanderr Blekh

1

Một ví dụ khác, hãy xem xét trường hợp người dùng sử dụng ma trận xếp hạng phim như cài đặt Netflix. Đây sẽ là một ma trận thưa thớt rất khó xử lý.

Lưu ý rằng mỗi người dùng sẽ có một sở thích cụ thể như phim khoa học viễn tưởng hoặc phim lãng mạn, v.v. Vì vậy, thay vì lưu trữ tất cả các xếp hạng phim, chúng tôi có thể lưu trữ một tính năng tiềm ẩn duy nhất như thể loại phim thuộc các Thể loại khác nhau , ví dụ: sci-fi hoặc lãng mạn, bất cứ điều gì định lượng hương vị của mình cho mỗi thể loại. Chúng được gọi là Tính năng tiềm ẩn , nắm bắt được bản chất của sở thích của anh ấy hơn là lưu trữ toàn bộ danh sách phim.

Tất nhiên đây sẽ là một xấp xỉ, nhưng mặt trái, bạn có rất ít để lưu trữ.

Điều này thường được thực hiện bằng cách sử dụng các kỹ thuật phân rã ma trận, như SVD, phá vỡ một N*N ma trận đề xuất người dùng để N*1 ma trận ưu tiên người dùng và 1*N ma trận ưu tiên mục, thêm lợi thế là thay vì lưu trữ N2 số chúng tôi lưu trữ hiệu quả 2N.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.