Chà, tôi nghĩ thật khó để trình bày một lời giải thích trực quan về phân tích tương quan Canonical (CCA) phân tích các thành phần chính (PCA) hoặc hồi quy tuyến tính . Hai cái sau thường được giải thích và so sánh bằng các phân tán dữ liệu 2D hoặc 3D, nhưng tôi nghi ngờ nếu điều đó là có thể với CCA. Dưới đây tôi đã vẽ những bức tranh có thể giải thích bản chất và sự khác biệt trong ba quy trình, nhưng ngay cả với những bức ảnh này - đó là các biểu diễn vectơ trong "không gian chủ đề" - có vấn đề với việc chụp CCA đầy đủ. (Đối với đại số / thuật toán phân tích tương quan chính tắc, hãy xem ở đây .)
Vẽ các cá thể như các điểm trong một không gian trong đó các trục là các biến, một biểu đồ phân tán thông thường, là một không gian biến . Nếu bạn vẽ theo cách ngược lại - các biến là các điểm và các cá nhân là các trục - đó sẽ là một không gian chủ đề . Vẽ nhiều trục thực sự không cần thiết bởi vì không gian có số lượng kích thước không dư thừa bằng số lượng biến không cộng tuyến. Các điểm khác nhau được kết nối với các vectơ gốc và dạng, mũi tên, kéo dài không gian chủ đề; vì vậy chúng tôi ở đây ( xem thêm ). Trong một không gian chủ đề, nếu các biến đã được căn giữa, cosin của góc giữa các vectơ của chúng là tương quan Pearson giữa chúng và bình phương của vectơ là phương sai của chúng. Trên các hình ảnh bên dưới các biến được hiển thị là trung tâm (không cần phát sinh liên tục).
Thành phần chủ yếu
Các biến và tương quan dương: chúng có góc nhọn giữa chúng. Các thành phần chính và nằm trong cùng một không gian "mặt phẳng X" được kéo dài bởi hai biến. Các thành phần cũng là các biến, chỉ trực giao lẫn nhau (không tương quan). Hướng của là để tối đa hóa tổng của hai tải trọng bình phương của thành phần này; và , thành phần còn lại, đi trực giao với trong mặt phẳng X. Độ dài bình phương của cả bốn vectơ là phương sai của chúng (phương sai của một thành phần là tổng của các tải trọng bình phương đã nói ở trên). Tải thành phần là tọa độ của các biến trên các thành phần -X1X2P1P2P1P2P1aHiển thị trên pic bên trái. Mỗi biến là tổ hợp tuyến tính không có lỗi của hai thành phần, với các tải tương ứng là các hệ số hồi quy. Và ngược lại , mỗi thành phần là sự kết hợp tuyến tính không có lỗi của hai biến; các hệ số hồi quy trong tổ hợp này được cho bởi tọa độ nghiêng của các thành phần trên các biến - 's được hiển thị trên pic bên phải. Độ lớn hệ số hồi quy thực tế sẽ được chia cho sản phẩm có độ dài (độ lệch chuẩn) của các thành phần dự đoán và dự báo biến, ví dụ như . [Chú thích: Các giá trị của các thành phần xuất hiện trong hai kết hợp tuyến tính nêu trên là các giá trị được tiêu chuẩn hóa, st. nhà phát triểnbbb12/(|P1|∗|X2|)= 1. Điều này là do thông tin về phương sai của chúng bị bắt bởi các tải . Để nói về các giá trị thành phần unstandardized, 's trên pic trên nên vector riêng ' giá trị, phần còn lại của lý luận là giống nhau.]a
Hồi quy bội
Trong khi ở PCA, mọi thứ đều nằm trong mặt phẳng X, trong hồi quy bội xuất hiện một biến phụ thuộc thường không thuộc về mặt phẳng X, không gian của các yếu tố dự đoán , . Nhưng là vuông góc chiếu lên mặt phẳng X, và chiếu'các ' bóng râm s, là dự đoán bởi hoặc kết hợp tuyến tính của hai 's. Trên hình, độ dài bình phương của là phương sai lỗi. Cosin giữa và là hệ số tương quan nhiều. Giống như với PCA, các hệ số hồi quy được cho bởi tọa độ nghiêng của dự đoán (YX1X2YY′YXeYY′Y′) vào các biến - 's. Độ lớn hệ số hồi quy thực tế sẽ được chia cho chiều dài (độ lệch chuẩn) của biến dự đoán, ví dụ.bbb2/|X2|
Tương quan Canonical
Trong PCA, một tập hợp các biến tự dự đoán: chúng mô hình các thành phần chính lần lượt mô hình lại các biến, bạn không để lại khoảng trống của các yếu tố dự đoán và (nếu bạn sử dụng tất cả các thành phần) thì dự đoán không có lỗi. Trong hồi quy bội, một tập hợp các biến dự đoán một biến ngoại lai và do đó có một số lỗi dự đoán. Trong CCA, tình huống tương tự như trong hồi quy, nhưng (1) các biến ngoại lai là nhiều, tạo thành một tập hợp của riêng chúng; (2) hai bộ dự đoán đồng thời với nhau (do đó tương quan chứ không phải hồi quy); (3) những gì họ dự đoán ở nhau là một trích xuất, một biến tiềm ẩn, hơn là dự đoán quan sát của hồi quy ( xem thêm ).
Chúng ta hãy liên quan đến bộ biến thứ hai và để tương quan chính tắc với bộ của chúng ta . Chúng ta có các khoảng trắng - ở đây, các mặt phẳng - X và Y. Cần thông báo rằng để tình huống không xảy ra - giống như ở trên với hồi quy trong đó đứng ngoài mặt phẳng X - các mặt phẳng X và Y chỉ giao nhau ở một điểm, nguồn gốc. Thật không may, không thể vẽ trên giấy vì trình bày 4D là cần thiết. Dù sao, mũi tên màu xám chỉ ra rằng hai nguồn gốc là một điểm và là điểm duy nhất được chia sẻ bởi hai mặt phẳng. Nếu được chụp, phần còn lại của bức tranh giống với hồi quy. vàY1Y2XYVxVylà cặp biến thiên kinh điển. Mỗi phương sai chính tắc là sự kết hợp tuyến tính của các biến tương ứng, giống như . là hình chiếu trực giao của lên mặt phẳng X. Ở đây là hình chiếu của trên mặt phẳng X và đồng thời là hình chiếu của trên mặt phẳng Y, nhưng chúng không phải là hình chiếu trực giao. Thay vào đó, chúng được tìm thấy (trích xuất) để giảm thiểu góc giữa chúngY′Y′YVxVyVyVxϕ. Cosine của góc đó là mối tương quan kinh điển. Do các phép chiếu không cần phải trực giao, nên độ dài (do đó phương sai) của các biến thiên chính tắc không được xác định tự động bởi thuật toán phù hợp và phải tuân theo các quy ước / ràng buộc có thể khác nhau trong các triển khai khác nhau. Số lượng các cặp biến thiên chính tắc (và do đó số lượng tương quan chính tắc) là min (số s, số s). Và đây là lúc CCA giống với PCA. Trong PCA, bạn đọc lướt các thành phần chính trực giao lẫn nhau (như thể) đệ quy cho đến khi tất cả các biến thiên đa biến bị cạn kiệt. Tương tự, trong các cặp biến thiên tương quan lẫn nhau của CCA được trích xuất cho đến khi tất cả các biến thiên đa biến có thể dự đoán đượcXYtrong không gian nhỏ hơn (thiết lập ít hơn) là lên. Trong ví dụ của chúng tôi với so với vẫn còn cặp kinh điển tương quan thứ hai và yếu hơn (trực giao với ) và (trực giao với ).X1 X2Y1 Y2Vx(2)VxVy(2)Vy
Để biết sự khác biệt giữa hồi quy CCA và PCA +, xem thêm Thực hiện CCA so với xây dựng biến phụ thuộc với PCA và sau đó thực hiện hồi quy .