Những gì được hiểu bởi phương sai trong một số chiều ("tổng phương sai") chỉ đơn giản là tổng của phương sai trong mỗi thứ nguyên. Về mặt toán học, đó là một dấu vết của ma trận hiệp phương sai: dấu vết chỉ đơn giản là tổng của tất cả các phần tử đường chéo. Định nghĩa này có nhiều thuộc tính đẹp khác nhau, ví dụ dấu vết là bất biến dưới các phép biến đổi tuyến tính trực giao, có nghĩa là nếu bạn xoay trục tọa độ, tổng phương sai vẫn giữ nguyên.
Điều được chứng minh trong cuốn sách của Đức cha (phần 12.1.1), đó là người bản địa hàng đầu của ma trận hiệp phương sai đưa ra hướng của phương sai cực đại. Trình xác định thứ hai đưa ra hướng của phương sai tối đa trong một ràng buộc bổ sung rằng nó phải trực giao với trình xác định thứ nhất, v.v. (Tôi tin rằng điều này tạo thành Bài tập 12.1). Nếu mục tiêu là tối đa hóa tổng phương sai trong không gian con 2D, thì quy trình này là tối đa hóa tham lam: đầu tiên chọn một trục tối đa hóa phương sai, sau đó chọn một trục khác.
Câu hỏi của bạn là: tại sao thủ tục tham lam này đạt được mức tối đa toàn cầu?
Đây là một lập luận tốt đẹp mà @whuber đề xuất trong các bình luận. Trước tiên chúng ta hãy căn chỉnh hệ tọa độ với các trục PCA. Ma trận hiệp phương sai trở thành đường chéo: . Để đơn giản, chúng ta sẽ xem xét cùng một trường hợp 2D, tức là mặt phẳng có tổng phương sai cực đại là gì? Chúng tôi muốn chứng minh rằng đó là mặt phẳng được cho bởi hai vectơ cơ sở đầu tiên (với tổng phương sai ).λ 1 + λ 2Σ = d i một g ( λTôi)λ1+ λ2
Xét một mặt phẳng được kéo dài bởi hai vectơ trực giao và . Tổng phương sai trong mặt phẳng này làVì vậy, đây là sự kết hợp tuyến tính của eigenvalues với các hệ số đều dương, không vượt quá (xem bên dưới) và tổng bằng . Nếu vậy, thì gần như rõ ràng là mức tối đa đạt được tại .v u ⊤ Σ u + v ⊤ Σ v = Σ bước sóng i u 2 i + Σ bước sóng i v 2 i = Σ bước sóng i ( u 2 i + v 2 i ) . λ i 1 2 λ 1 + λ 2bạnv
bạn⊤Σ u + v⊤Σ v = Σ bước sóngTôibạn2Tôi+ Σ bước sóngTôiv2Tôi= Σ bước sóngTôi( bạn2Tôi+ v2Tôi) .
λTôi12λ1+ λ2
Nó chỉ còn lại để chỉ ra rằng các hệ số không thể vượt quá . Lưu ý rằng , trong đó là vectơ cơ sở thứ . Đại lượng này là độ dài bình phương của hình chiếu lên mặt phẳng được kéo dài bởi và . Do đó, nó phải nhỏ hơn độ dài bình phương của bằng với , QED.k k k u v k | k | 2 = 11bạn2k+ v2k= ( u ⋅ k )2+ ( v ⋅ k )2kkkbạnvk| k |2= 1
Xem thêm câu trả lời của @ Cardinal cho chức năng mục tiêu của PCA là gì? (nó tuân theo logic tương tự).