Đây là một câu hỏi hay, nhưng vì nó xuất hiện từ đó bạn biết PCA và CCA một thỏa thuận, vì vậy bạn có thể tự trả lời nó. Và bạn làm:
[CCA] xây dựng các biến thể kinh điển không mù quáng [ghi sự tồn tại của X] tối đa hóa phương sai được giải thích [trong Y], nhưng đã có mục đích cuối cùng là tối đa hóa mối tương quan với X.
Hoàn toàn đúng. Mối tương quan giữa PC của Y thứ 1 với bộ X hầu như sẽ luôn yếu hơn so với tương quan của CV của Y thứ 1 với nó. Điều này xuất hiện từ hình ảnh so sánh PCA với các hành động CCA.
Hồi quy PCA + mà bạn nghĩ ra là chiến lược hai bước, ban đầu là "không giám sát" ("mù", như bạn đã nói), trong khi CCA là chiến lược một bước, "có giám sát". Cả hai đều hợp lệ - mỗi trong cài đặt điều tra riêng!
Thành phần chính thứ nhất (PC1) thu được trong PCA của tập Y là tổ hợp tuyến tính của các biến Y. Biến thiên chính tắc thứ nhất (CV1) được trích xuất từ tập Y trong CCA của tập Y và X cũng là một tổ hợp tuyến tính của các biến Y. Nhưng họ khác nhau. (Khám phá các bức ảnh được liên kết, cũng chú ý đến cụm từ mà CCA gần gũi hơn - thực sự là một hình thức - hồi quy so với PCA.)
PC1 đại diện cho thiết Y . Đây là tóm tắt tuyến tính và là "phó" từ tập Y, để đối mặt với các mối quan hệ ngoài thế giới sau này (chẳng hạn như trong hồi quy tiếp theo của PC1 theo các biến X).
CV1 đại diện cho tập X trong tập Y. Đó là hình ảnh tuyến tính của X thuộc về Y, "người trong cuộc" trong Y. Mối quan hệ YX đã có: CCA là một hồi quy đa biến.
Giả sử tôi đã có kết quả mẫu của trẻ em trong bảng câu hỏi lo lắng của trường (chẳng hạn như bài kiểm tra Phillips) - Các mục Y và kết quả của chúng trong bảng câu hỏi thích ứng xã hội - Các mục X. Tôi muốn thiết lập mối quan hệ giữa hai bộ. Các mục của cả bên trong X và bên trong Y tương quan với nhau, nhưng chúng khá khác nhau và tôi không hài lòng với ý tưởng tổng hợp điểm số của vật phẩm thành một điểm duy nhất trong cả hai tập hợp, vì vậy tôi chọn ở lại đa biến.
Nếu tôi làm PCA của Y, trích xuất PC1, rồi hồi quy trên các mục X, điều đó có nghĩa là gì? Điều đó có nghĩa là tôi tôn trọng bảng câu hỏi lo lắng (vật phẩm Y) là miền chủ quyền (đóng) của các hiện tượng, có thể thể hiện chính mình. Thể hiện bằng cách phát hành tổng các mục có trọng số tốt nhất của nó (chiếm phương sai tối đa) đại diện cho toàn bộ Y - yếu tố chung / trục / xu hướng của nó, "tổ hợp lo âu trường học chính thống", PC1. Không phải trước khi đại diện được hình thành mà tôi chuyển sang câu hỏi tiếp theo làm thế nào nó có thể liên quan đến thích ứng xã hội, câu hỏi tôi sẽ kiểm tra trong hồi quy.
Nếu tôi làm CCAcủa Y vs X, trích xuất cặp biến thiên chính tắc thứ nhất - một từ mỗi bộ - có mối tương quan tối đa, điều đó có nghĩa là gì? Điều đó có nghĩa là tôi nghi ngờ yếu tố chung giữa (đằng sau) cả sự lo lắng và sự thích nghi khiến chúng có mối tương quan với nhau. Tuy nhiên, tôi không có lý do hay căn cứ nào để trích xuất hoặc mô hình hóa yếu tố đó bằng phương pháp phân tích PCA hoặc Factor của tập hợp "biến X + biến Y" (ví dụ, vì tôi thấy lo lắng và thích ứng là hai miền hoàn toàn khác nhau về mặt khái niệm, hoặc bởi vì hai bảng câu hỏi có tỷ lệ (đơn vị) hoặc phân phối có hình dạng khác nhau mà tôi sợ phải "hợp nhất" hoặc số lượng vật phẩm rất khác nhau trong đó). Tôi sẽ hài lòng với sự tương quan chính tắc giữa các bộ. Hoặc tôi có thể không giả sử bất kỳ "yếu tố chung" nào đằng sau các bộ, và chỉ cần nghĩ "X hiệu ứng Y". Vì Y là đa biến nên hiệu ứng là đa chiều, và tôi đang yêu cầu hiệu ứng mạnh nhất bậc 1. Nó được đưa ra bởi tương quan chính tắc thứ 1 và biến dự đoán tương ứng với nó là CV1 của tập Y. CV1 được loại ra khỏi Y, Y thì khôngnhà sản xuất selbständig của nó.