Làm CCA so với xây dựng biến phụ thuộc với PCA và sau đó thực hiện hồi quy


9

Đưa ra hai bộ dữ liệu đa chiều là và , một số người thực hiện phân tích đa biến bằng cách xây dựng biến phụ thuộc thay thế bằng phân tích thành phần chính (PCA). Nghĩa là, chạy PCA trên tập , lấy điểm dọc theo thành phần đầu tiên và chạy hồi quy nhiều điểm số đó trên : . (Tôi đang căn cứ câu hỏi của tôi về bài viết này ). Y Y y ' X y ' = β X + εXYYyXy=βX+ϵ

Có vẻ như một số hình thức phân tích tương quan chính tắc (CCA) giữa hai bộ dữ liệu với tôi. Nhưng không có nền tảng trong lĩnh vực này, tôi không thể đặt ngón tay của mình lên nó. Vì vậy, câu hỏi của tôi là, những gì có thể là ưu / nhược điểm của phân tích hồi quy PCA +, so với CCA?

Trực giác nói rằng CCA nên hợp lý hơn ở đây, như (tôi tin) nó xây dựng các kinh điển variates không mù quáng tối đa hóa giải thích sai, nhưng đã với mục đích cuối cùng của việc tối đa hóa sự tương quan với trong tâm trí. Tôi có đúng không X


Tham khảo: Mei và cộng sự, 2010, hồi quy đa biến dựa trên thành phần chính cho các nghiên cứu liên kết di truyền của các thành phần hội chứng chuyển hóa

Câu trả lời:


6

Đây là một câu hỏi hay, nhưng vì nó xuất hiện từ đó bạn biết PCA và CCA một thỏa thuận, vì vậy bạn có thể tự trả lời nó. Và bạn làm:

[CCA] xây dựng các biến thể kinh điển không mù quáng [ghi sự tồn tại của X] tối đa hóa phương sai được giải thích [trong Y], nhưng đã có mục đích cuối cùng là tối đa hóa mối tương quan với X.

Hoàn toàn đúng. Mối tương quan giữa PC của Y thứ 1 với bộ X hầu như sẽ luôn yếu hơn so với tương quan của CV của Y thứ 1 với nó. Điều này xuất hiện từ hình ảnh so sánh PCA với các hành động CCA.

Hồi quy PCA + mà bạn nghĩ ra là chiến lược hai bước, ban đầu là "không giám sát" ("mù", như bạn đã nói), trong khi CCA là chiến lược một bước, "có giám sát". Cả hai đều hợp lệ - mỗi trong cài đặt điều tra riêng!

Thành phần chính thứ nhất (PC1) thu được trong PCA của tập Y là tổ hợp tuyến tính của các biến Y. Biến thiên chính tắc thứ nhất (CV1) được trích xuất từ ​​tập Y trong CCA của tập Y và X cũng là một tổ hợp tuyến tính của các biến Y. Nhưng họ khác nhau. (Khám phá các bức ảnh được liên kết, cũng chú ý đến cụm từ mà CCA gần gũi hơn - thực sự là một hình thức - hồi quy so với PCA.)

PC1 đại diện cho thiết Y . Đây là tóm tắt tuyến tính và là "phó" từ tập Y, để đối mặt với các mối quan hệ ngoài thế giới sau này (chẳng hạn như trong hồi quy tiếp theo của PC1 theo các biến X).

CV1 đại diện cho tập X trong tập Y. Đó là hình ảnh tuyến tính của X thuộc về Y, "người trong cuộc" trong Y. Mối quan hệ YX đã có: CCA là một hồi quy đa biến.

Giả sử tôi đã có kết quả mẫu của trẻ em trong bảng câu hỏi lo lắng của trường (chẳng hạn như bài kiểm tra Phillips) - Các mục Y và kết quả của chúng trong bảng câu hỏi thích ứng xã hội - Các mục X. Tôi muốn thiết lập mối quan hệ giữa hai bộ. Các mục của cả bên trong X và bên trong Y tương quan với nhau, nhưng chúng khá khác nhau và tôi không hài lòng với ý tưởng tổng hợp điểm số của vật phẩm thành một điểm duy nhất trong cả hai tập hợp, vì vậy tôi chọn ở lại đa biến.

Nếu tôi làm PCA của Y, trích xuất PC1, rồi hồi quy trên các mục X, điều đó có nghĩa là gì? Điều đó có nghĩa là tôi tôn trọng bảng câu hỏi lo lắng (vật phẩm Y) là miền chủ quyền (đóng) của các hiện tượng, có thể thể hiện chính mình. Thể hiện bằng cách phát hành tổng các mục có trọng số tốt nhất của nó (chiếm phương sai tối đa) đại diện cho toàn bộ Y - yếu tố chung / trục / xu hướng của nó, "tổ hợp lo âu trường học chính thống", PC1. Không phải trước khi đại diện được hình thành mà tôi chuyển sang câu hỏi tiếp theo làm thế nào nó có thể liên quan đến thích ứng xã hội, câu hỏi tôi sẽ kiểm tra trong hồi quy.

Nếu tôi làm CCAcủa Y vs X, trích xuất cặp biến thiên chính tắc thứ nhất - một từ mỗi bộ - có mối tương quan tối đa, điều đó có nghĩa là gì? Điều đó có nghĩa là tôi nghi ngờ yếu tố chung giữa (đằng sau) cả sự lo lắng và sự thích nghi khiến chúng có mối tương quan với nhau. Tuy nhiên, tôi không có lý do hay căn cứ nào để trích xuất hoặc mô hình hóa yếu tố đó bằng phương pháp phân tích PCA hoặc Factor của tập hợp "biến X + biến Y" (ví dụ, vì tôi thấy lo lắng và thích ứng là hai miền hoàn toàn khác nhau về mặt khái niệm, hoặc bởi vì hai bảng câu hỏi có tỷ lệ (đơn vị) hoặc phân phối có hình dạng khác nhau mà tôi sợ phải "hợp nhất" hoặc số lượng vật phẩm rất khác nhau trong đó). Tôi sẽ hài lòng với sự tương quan chính tắc giữa các bộ. Hoặc tôi có thể không giả sử bất kỳ "yếu tố chung" nào đằng sau các bộ, và chỉ cần nghĩ "X hiệu ứng Y". Vì Y là đa biến nên hiệu ứng là đa chiều, và tôi đang yêu cầu hiệu ứng mạnh nhất bậc 1. Nó được đưa ra bởi tương quan chính tắc thứ 1 và biến dự đoán tương ứng với nó là CV1 của tập Y. CV1 được loại ra khỏi Y, Y thì khôngnhà sản xuất selbständig của nó.


1
+1. Tôi có thể thêm CCA, như bất kỳ hồi quy nào khác, có xu hướng bị thừa. Vì vậy, nếu Y và / hoặc X bao gồm rất nhiều biến số, thì việc thực hiện CCA có thể dẫn đến thành phần đầu tiên trong Y gần như được dự đoán 100% từ X nhưng thực sự hoàn toàn là do nhiễu. Làm PCA trên X và Y trước khi thực hiện CCA có thể hoạt động như một loại chính quy. Giảm Y xuống một PC ở dạng cực đoan của nó.
amip

@amoeba, cảm ơn bạn đã bổ sung. Nó chạm vào khía cạnh suy luận của câu chuyện (dân số, ý nghĩa, sự kỳ thị) mà tôi hoàn toàn bỏ qua trong câu trả lời. Tôi nghĩ rằng tôi hiểu những gì bạn đang nói, nhưng bạn đang nói nó quá dè dặt, đối với ai đó. Quá mức, tiếng ồn - những điều này nên được giải thích, và vì vậy tôi có thể đề nghị bạn đưa ra một câu trả lời riêng để mở ra nhận xét của bạn.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.