SVD của ma trận dữ liệu (PCA) sau khi làm mịn


8

Giả sử tôi có ma trận dữ liệu trung tâm với SVD A = U \ Sigma V ^ {T} .n×mAA=UΣVT

Ví dụ: m=50 cột (số đo) là phổ với n=100 tần số khác nhau. Ma trận được căn giữa để các hàng của ma trận bị trừ trung bình. Điều này là để giải thích các vectơ số ít bên trái là thành phần chính.

Tôi muốn tìm hiểu làm thế nào SVD thay đổi khi tôi làm mịn từng vectơ cột. Ví dụ: Hãy làm mịn từng cột 100x1 bằng một hạt nhân đơn giản như [1/3, 2/3, 1/3].

S=[23131323131323131323131323131323]

Vì vậy, ma trận dữ liệu mới là A=SA và có một số SVD A=UΣVT .

Suy nghĩ đầu tiên của tôi là vì SA=SUΣVT , tôi nên mong đợi các vectơ Ui được làm mịn giống như các vectơ Ai .

Phương trình đầu tiên này trông giống như (SU)i là các hàm riêng của AAT :

SA(SA)T=SUΣΣTUTST

Nhưng tôi không chắc chắn về điều tiếp theo này nếu nó hợp lệ để nói rằng Vi là người bản địa của ATA :

(SA)TSA=VΣTUTSTSUΣVT

Khi tôi so sánh các SVD của AA bằng số, các vectơ số ít bên trái không như tôi mong đợi, USU , nhưng chúng có vẻ ngoài nhẵn.

Ai đó có thể giúp tôi liên hệ và SVD sau khi chuyển đổi đơn giản này không? U ' Σ ' V ' TUΣVTUΣVT

Câu trả lời:


8

Tại sao những suy nghĩ đầu tiên của bạn khiến bạn lạc lối:

Khi bạn lấy SVD của một ma trận, và là đơn nhất (trực giao). Vì vậy, mặc dù đúng là , nhưng đó không phải (nói chung) là SVD của . Chỉ khi là đơn vị (mà trong trường hợp ma trận làm mịn, thì không) sẽ đúng là .VUVSA=SUΣVTSASU=SU

Có cách nào thanh lịch, mang tính biểu tượng liên quan đến hai SVD không? Tôi không thể tìm thấy một. Tuy nhiên, ma trận làm mịn của bạn là ma trận Toeplitz. Có thể các ma trận như vậy có một số tính chất đặc biệt có thể giúp phân tích hiệu quả hơn. Nếu bạn tìm ra một cái gì đó, xin vui lòng chia sẻ với phần còn lại của chúng tôi.

Các trường hợp cực kỳ trơn tru:

Một cách để suy nghĩ về làm mịn là một sự liên tục từ không làm mịn đến cực đoan nơi chúng ta làm mịn từng cột đến giá trị trung bình của nó. Bây giờ, trong trường hợp cực đoan đó, ma trận sẽ có thứ hạng là 1 và sẽ chỉ có một giá trị số ít khác không. Hãy nhìn vào SVD:

[μ1μ2...μm]=[μμ...]=1μT=1n[μn]μTμ

Phương trình cuối cùng đại diện cho SVD bị cắt ngắn. Lưu ý rằng các vectơ bên trái và bên phải có độ dài 1. Bạn có thể mở rộng thành một ma trận trực giao. Tương tự cho . Sau đó, chỉ cần không đệm ma trận giữa và bạn đã có đầy đủ SVD.1nμμ

Làm mịn trung gian

Có lẽ bạn sẽ không làm trơn tru như vậy. Vì vậy, điều này có nghĩa là cho bạn? Khi chúng ta mở rộng độ mịn, quang phổ dần dần giảm xuống một giá trị duy nhất. Chẳng hạn, trong các mô phỏng của tôi *:

Phổ thông thường Quang phổ chỉnh hình

Như được đề xuất bởi đạo hàm ở trên, sẽ tiếp cận vectơ 1 được định mức và sẽ tiếp cận vectơ trung bình chuẩn. Nhưng những vectơ khác thì sao?U1V1

Khi các giá trị số ít tương ứng của chúng co lại, các và khác sẽ thay đổi mạnh mẽ hơn cho đến khi chúng chỉ là các lựa chọn tùy ý cho các cơ sở của không gian con trực giao với và . Điều đó có nghĩa là, sẽ trở nên ồn ào.UiViU1V1

Nếu bạn cần một số trực giác về lý do tại sao chúng "chỉ là tiếng ồn", hãy xem là tổng số các dyads: . Chúng tôi hoàn toàn có thể thay đổi hướng của và và nó sẽ chỉ ảnh hưởng đến các mục nhập của ít hơn .SAσiUiViTUiViSAσi

Một hình dung khác

Đây là một cách khác để xem xét làm mịn cột. Hình ảnh mỗi hàng trong ma trận như một điểm trong -space. Khi chúng ta làm mịn các cột, mỗi điểm sẽ tiến gần hơn đến điểm trước và điểm tiếp theo. Nhìn chung, đám mây điểm co lại:m

Đám mây điểm

Hi vọng điêu nay co ich!

[*]: Tôi đã định nghĩa một gia đình làm mịn ngày càng rộng. Nói một cách đơn giản, tôi đã lấy hạt nhân [1/4, 1/2, 1/4], kết hợp nó lần, cắt nó thành các kích thước và chuẩn hóa để nó tóm tắt thành 1. Sau đó, tôi vẽ đồ thị làm mịn dần dần của một trực giao ngẫu nhiên và một ma trận bình thường ngẫu nhiên.zd

[†]: Máy làm mịn được tạo theo cùng một cách. được xây dựng như một chuỗi các điểm trong không gian trông thú vị.A2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.