Tại sao phải bận tâm với xấp xỉ thứ hạng thấp?


20

Nếu bạn có một ma trận có n hàng và m cột, bạn có thể sử dụng SVD hoặc các phương thức khác để tính xấp xỉ thứ hạng thấp của ma trận đã cho.

Tuy nhiên, xấp xỉ thứ hạng thấp vẫn sẽ có n hàng và m cột. Làm thế nào các xấp xỉ thứ hạng thấp có thể hữu ích cho việc học máy và xử lý ngôn ngữ tự nhiên, với điều kiện bạn còn lại với cùng một số tính năng?


2
Chúng thường có các biểu diễn thưa thớt - bạn không cần lưu trữ số để có xấp xỉ thứ hạng thấp. Ví dụ: xấp xỉ hạng 1 yêu cầu số n + m . mnn+m
xác suất

Câu trả lời:


16

Một xấp xỉ bậc thấp X của X có thể được chia ra thành một căn bậc hai ma trận như G = U r λ 1X^Xnơi phân hủy eigen củaXUλUT, do đó làm giảm số tính năng, có thể được đại diện bởiGdựa trên xấp xỉ bậc-r nhưX=GGT. Lưu ý rằng chỉ sốr đại diện cho số lượng vectơ riêng và giá trị riêng được sử dụng trong phép tính gần đúng. Do đó, nó làm giảm số lượng các tính năng để đại diện cho dữ liệu. Trong một số ví dụ, các xấp xỉ xếp hạng thấp được coi là mở rộng dựa trên biến số cơ bản hoặc tiềm ẩn (từ điển) của dữ liệu gốc, dưới các ràng buộc đặc biệt như tính trực giao, không âm (hệ số ma trận không âm), v.v.G=Urλr12XUλUTGX^=GGTr


5

Điểm gần đúng thứ hạng thấp không nhất thiết chỉ để thực hiện giảm kích thước.

Ý tưởng là dựa trên kiến ​​thức tên miền, dữ liệu / mục nhập của ma trận bằng cách nào đó sẽ khiến ma trận xếp hạng thấp. Nhưng đó là trong trường hợp lý tưởng khi các mục không bị ảnh hưởng bởi tiếng ồn, tham nhũng, thiếu giá trị, v.v ... Ma trận quan sát thường sẽ có thứ hạng cao hơn nhiều.

Do đó, xấp xỉ thứ hạng thấp là một cách để phục hồi ma trận "ban đầu" (ma trận "lý tưởng" trước khi nó bị nhiễu bởi v.v.) ma trận thứ hạng thấp tức là tìm ma trận phù hợp nhất (về các mục được quan sát) với ma trận hiện tại và có thứ hạng thấp để có thể sử dụng nó như một xấp xỉ với ma trận lý tưởng. Đã phục hồi ma trận này, chúng ta có thể sử dụng nó để thay thế cho phiên bản ồn ào và hy vọng sẽ có kết quả tốt hơn.


4

Hai lý do nữa không được đề cập cho đến nay:

  1. Giảm colinearity. Tôi tin rằng hầu hết các kỹ thuật này loại bỏ colinearity, có thể hữu ích cho quá trình xử lý tiếp theo.

  2. Trí tưởng tượng của chúng tôi là thứ hạng thấp, vì vậy nó có thể hữu ích cho việc khám phá các mối quan hệ cấp thấp.



1

Theo "Kỹ thuật thống kê đa biến hiện đại (Izenman)", hồi quy xếp hạng giảm bao gồm một số phương pháp thú vị như PCA, phân tích nhân tố, phân tích chính tắc và phân tích tương quan, LDA và phân tích tương ứng

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.