Đưa ra một ma trận dữ liệu nói 1000000 quan sát 100 tính năng, có một cách nhanh chóng để xây dựng một xấp xỉ ba cực
?
Sau đó, một yếu tố có thể,
tất cả 0 ngoại trừ và và làm tan nhanh (làm trắng) bằng cách giải quyết
. (Ý tôi là "nhanh".)
(Đã thêm, cố gắng làm rõ): Tôi đang tìm kiếm một chất làm trắng nhanh và bẩn nhanh hơn đầy đủ nhưng tốt hơn đường chéo. Nói rằng Là điểm dữ liệu tính năng, ví dụ 1000000 100, với các tính năng 0 có nghĩa.
1) xây dựng , Cholesky yếu tố đó là , gỡ rối để làm trắng mới S. Đây là bậc hai về số lượng các tính năng.
2) đường chéo: bỏ qua các mối tương quan chéo hoàn toàn.
Người ta có thể có được một ma trận ba cực từ chỉ bằng cách loại bỏ tất cả các mục bên ngoài bộ ba, hoặc không tích lũy chúng ở vị trí đầu tiên. Và ở đây tôi bắt đầu chìm: phải có một xấp xỉ tốt hơn, có lẽ là phân cấp, khối chéo → tridia chéo?
(Đã thêm ngày 11 tháng 5): Hãy để tôi chia câu hỏi thành hai:
1) có gần đúng nhanh không ?
Không (whuber), người ta phải nhìn vào tất cả cặp (hoặc có cấu trúc, hoặc mẫu).
2) đưa ra một , người ta có thể làm trắng nhanh như thế nào s?
Vâng, bao thanh toán, tam giác dưới, một lần, sau đó giải
là khá nhanh; scipy.linalg.solve_triangular, ví dụ, sử dụng Lapack.
Tôi đang tìm kiếm một whiten nhanh hơn (), vẫn đang tìm kiếm.