Q1. Các thành phần chính là các biến trực giao (không tương quan) lẫn nhau . Tính trực giao và tính độc lập thống kê không phải là từ đồng nghĩa . Không có gì đặc biệt về các thành phần chính; điều tương tự cũng đúng với bất kỳ biến nào trong phân tích dữ liệu đa biến. Nếu dữ liệu là đa biến thông thường ( không giống như để nói rằng mỗi biến là bình thường đơn nhất) và các biến không tương quan, thì có, chúng là độc lập. Cho dù tính độc lập của các thành phần chính có quan trọng hay không - phụ thuộc vào cách bạn sẽ sử dụng chúng. Rất thường xuyên, tính trực giao của họ sẽ đủ.
Quý 2 Có, chia tỷ lệ có nghĩa là thu hẹp hoặc kéo dài phương sai của các biến riêng lẻ. Các biến là kích thước của không gian mà dữ liệu nằm trong. Kết quả PCA - các thành phần - rất nhạy cảm với hình dạng của đám mây dữ liệu, hình dạng của "ellipsoid" đó. Nếu bạn chỉ tập trung vào các biến, hãy để các phương sai như hiện tại, điều này thường được gọi là "PCA dựa trên hiệp phương sai". Nếu bạn cũng chuẩn hóa các biến thành phương sai = 1, thì điều này thường được gọi là "PCA dựa trên mối tương quan" và nó có thể rất khác so với trước đây (xem một chủ đề ). Ngoài ra, những người tương đối hiếm khi làm PCA trên dữ liệu không tập trung: dữ liệu thô hoặc chỉ được thu nhỏ theo đơn vị; kết quả của PCA như vậy khác với nơi bạn tập trung dữ liệu (xem hình ).
H3 "Ràng buộc" là cách PCA hoạt động (xem một chủ đề lớn ). Hãy tưởng tượng dữ liệu của bạn là đám mây 3 chiều (3 biến, điểm); nguồn gốc được đặt ở tâm (trung bình) của nó. PCA vẽ thành phần 1 như một trục thông qua gốc tọa độ, tổng các hình chiếu bình phương (tọa độ) trên đó được tối đa hóa ; có nghĩa là, phương sai dọc theo thành phần1 được tối đa hóa. Sau khi thành phần 1 được xác định, nó có thể được loại bỏ dưới dạng thứ nguyên, có nghĩa là các điểm dữ liệu được chiếu lên mặt phẳng trực giao với thành phần đó. Bạn bị bỏ lại với một đám mây 2 chiều. Sau đó, một lần nữa, bạn áp dụng quy trình tìm trục tối đa ở trênp p - 1nphương sai - bây giờ trong đám mây 2D còn sót lại này. Và đó sẽ là thành phần2. Bạn loại bỏ thành phần đã vẽ 2 từ mặt phẳng bằng cách chiếu các điểm dữ liệu lên đường trực giao với nó. Dòng đó, đại diện còn lại 1D đám mây, được định nghĩa là phần cuối cùng, thành phần 3. Bạn có thể thấy rằng trên mỗi 3 "bước", phân tích a) tìm thấy kích thước của phương sai lớn nhất trong dòng không gian ba chiều , b) giảm dữ liệu xuống các kích thước mà không có kích thước đó, nghĩa là, không gian trực giao chiều chiều trực giao với kích thước được đề cập. Đó là cách nó chỉ ra rằng mỗi thành phần chính là một "phương sai tối đa" và tất cả các thành phần là trực giao lẫn nhau (xem thêm ).pp−1
[ PS Xin lưu ý rằng "trực giao" có nghĩa là hai điều: (1) các trục biến là trục vuông góc vật lý; (2) các biến như không tương quan với dữ liệu của họ. Với PCA và một số phương pháp đa biến khác, hai điều này là giống nhau. Nhưng với một số phân tích khác (ví dụ phân tích phân biệt đối xử), các biến tiềm ẩn được trích xuất không tương thích không tự động có nghĩa là các trục của chúng vuông góc trong không gian ban đầu.]