Làm thế nào để sử dụng phân tích thành phần chính để chọn các biến cho hồi quy?

12

Tôi hiện đang sử dụng phân tích thành phần chính để chọn các biến để sử dụng trong mô hình hóa. Hiện tại, tôi thực hiện các phép đo A, B và C trong các thí nghiệm của mình - Điều tôi thực sự muốn biết là: Tôi có thể thực hiện ít phép đo hơn và dừng ghi C và hoặc B để tiết kiệm thời gian và công sức không?

Tôi thấy rằng cả 3 biến tải rất nhiều vào thành phần chính đầu tiên của tôi, chiếm 60% phương sai trong dữ liệu của tôi. Điểm thành phần cho tôi biết rằng nếu tôi cộng các biến này lại với nhau theo một tỷ lệ nhất định (aA + bB + cC). Tôi có thể nhận được điểm trên PC1 cho từng trường hợp trong tập dữ liệu của mình và có thể sử dụng điểm này làm biến trong mô hình hóa, nhưng điều đó không cho phép tôi ngừng đo B và C.

Nếu tôi bình phương tải của A và B và C trên PC1, tôi thấy biến A đó chiếm 65% phương sai trong PC1 và biến B chiếm 50% phương sai trong PC1 và biến C cũng là 50%, tức là một số của phương sai trong PC1 chiếm bởi mỗi biến A, B và C được chia sẻ với một biến khác, nhưng A xuất hiện trên kế toán hàng đầu với giá cao hơn một chút.

Có sai không khi nghĩ rằng tôi chỉ có thể chọn biến A hoặc có thể (aA + bB, nếu cần) để sử dụng trong mô hình hóa vì biến này mô tả một tỷ lệ lớn của phương sai trong PC1 và điều này lần lượt mô tả một tỷ lệ lớn của phương sai trong dữ liệu?

Phương pháp nào bạn đã đi trong quá khứ?

Biến duy nhất tải nặng nhất trên PC1 ngay cả khi có các bộ tải nặng khác?
Điểm thành phần trên PC1 sử dụng tất cả các biến ngay cả khi chúng đều là các trình tải nặng?

regression pca model-selection

— N26
nguồn

14

Bạn chưa chỉ định "mô hình hóa" nào bạn dự định, nhưng có vẻ như bạn đang hỏi về cách chọn các biến độc lập giữa , và cho mục đích (nói) hồi quy biến phụ thuộc thứ tư trên chúng. $A$ $B$ $C$ $W$

Để thấy rằng phương pháp này có thể sai, hãy xem xét ba biến độc lập , và độc lập với phương sai đơn vị. Đối với sự thật, cơ bản mô hình lựa chọn một hằng số nhỏ , một hằng số thực sự nhỏ bé , và để cho các (biến phụ thuộc) (cộng với một chút độc lập lỗi của , , và ). $X$ $Y$ $Z$ $\beta \ll 1$ $\epsilon \ll \beta$ $W = Z$ $X$ $Y$ $Z$

Giả sử các biến độc lập bạn có là , và . Sau đó, và liên quan chặt chẽ (tùy thuộc vào phương sai của sai số), bởi vì mỗi gần một bội số của . Tuy nhiên, là không tương quan với một trong hai hoặc . Bởi vì là nhỏ, thành phần chủ yếu đầu tiên cho $A = X + \epsilon Y$ $B = X - \epsilon Y$ $C = \beta Z$ $W$ $C$ $Z$ $W$ $A$ $B$ $\beta$ $\{A, B, C\}$ song song với với eigenvalue . và tải rất nhiều trên thành phần này và không tải vì nó độc lập với (và ). Tuy nhiên, nếu bạn loại bỏ khỏi các biến độc lập, chỉ để lại và , bạn sẽ bỏ đi tất cả thông tin về biến phụ thuộc vì , và là độc lập! $X$ $2 \gg \beta$ $A$ $B$ $C$ $X$ $Y$ $C$ $A$ $B$ $W$ $A$ $B$

Ví dụ này cho thấy đối với hồi quy, bạn muốn chú ý đến cách các biến độc lập có tương quan với biến phụ thuộc; bạn không thể thoát khỏi chỉ bằng cách phân tích mối quan hệ giữa các biến độc lập.

— whuber
nguồn

1

này nên

không

?

A = X + ϵ Y

$A = X + \epsilon Y$

Z + ϵ Y

$Z + \epsilon Y$

— shabbychef

@shabby Vâng, cảm ơn bạn. (Tôi đã phải thay đổi tất cả các tên biến trong một bản nháp để khớp với tên của OP và làm hỏng tên này.)

— whuber

4

Nếu bạn chỉ có 3 IV, tại sao bạn muốn giảm chúng?

Đó là, mẫu của bạn rất nhỏ (để 3 IV có nguy cơ quá mức)? Trong trường hợp này, hãy xem xét bình phương tối thiểu một phần

Hoặc các phép đo rất tốn kém (vì vậy, trong tương lai, bạn chỉ muốn đo một IV)? Trong trường hợp này, tôi sẽ xem xét việc xem xét các hồi quy khác nhau với từng IV riêng biệt và cùng nhau.

Hay ai đó trong quá khứ của bạn quá nhấn mạnh giá trị của sự kỳ thị? Trong trường hợp này, tại sao không bao gồm cả 3 IV?

— Peter Flom - Tái lập Monica
nguồn