Tôi đã đọc một số ghi chú và nó nói rằng PCA có thể "thu thập dữ liệu". Cái mà họ định nghĩa với tôi là "sphering data" đang chia mỗi chiều cho căn bậc hai của giá trị riêng tương ứng.
Tôi giả định rằng theo "chiều", chúng có nghĩa là mỗi vectơ cơ sở mà chúng ta đang chiếu (tức là các hàm riêng mà chúng ta đang chiếu). Vì vậy, tôi đoán họ đang làm:
trong đó là một trong những hàm riêng (tức là một trong các thành phần chính). Sau đó, với vectơ mới đó, tôi giả sử họ đang chiếu dữ liệu thô mà chúng ta có, giả sử thành . Vì vậy, các điểm dự kiến bây giờ sẽ là:
Họ tuyên bố rằng làm điều này đảm bảo rằng tất cả các tính năng có cùng phương sai.
Tuy nhiên, tôi thậm chí không chắc cách giải thích của tôi về ý nghĩa của chúng bằng cách viết là đúng và muốn kiểm tra xem nó có đúng không. Ngoài ra, ngay cả khi nó là chính xác, điểm quan trọng của việc làm một cái gì đó như thế này là gì? Tôi biết họ tuyên bố rằng nó đảm bảo mọi người đều có cùng một phương sai, nhưng tại sao chúng ta lại muốn làm điều này và làm thế nào để đạt được điều này?
u
là giá trị của eigenvector và liên quan đến giá trị PC thô.u'
được gọi là tải và có liên quan đến các giá trị PC được chuẩn hóa (bằng nhau). Bạn có thể muốn đọc câu trả lời của tôi về nó: stats.stackexchange.com/a353653/3277 .