Người ta có thể sử dụng nhiều hồi quy để dự đoán một thành phần chính (PC) từ một số PC khác không?

15

Cách đây một thời gian, một người dùng trong danh sách gửi thư trợ giúp R đã hỏi về tính đúng đắn của việc sử dụng điểm PCA trong hồi quy. Người dùng đang cố gắng sử dụng một số điểm PC để giải thích sự thay đổi trong một PC khác (xem thảo luận đầy đủ tại đây ). Câu trả lời là không, đây không phải là âm thanh vì PC trực giao với nhau.

Ai đó có thể giải thích chi tiết hơn một chút tại sao điều này là như vậy?

regression pca

— La Mã Luštrik
nguồn

1

Tại sao bạn đặt rthẻ và ý của bạn là "tại sao lại như vậy"? PC không tương quan với nhau, tức là chúng trực giao, phụ gia, bạn không thể dự đoán PC này với PC khác. Bạn đang tìm kiếm một công thức?

— aL3xa

Tôi đã tự hỏi về các nguyên tắc đằng sau logic (trong nhiệm vụ tìm hiểu PCA). Tôi đã sử dụng thẻ R vì người R có thể đọc được ví dụ này và có thể hiển thị các ví dụ R. :)

— Roman Luštrik

Oh, tại sao bạn không nói như vậy? Bạn đã xem statmethods.net/advstats/factor.html

— aL3xa

Đây là một chủ đề hơi lạc lõng , nhưng đây là một số nội dung hay về PCA (chủ yếu ở R): HTML statsoft.com/textbook/principal-components-factor-analysis/, . okstate.edu/PCA.htm astrostatistic.psu.edu/datasets/R/MV.html statmethods.net/advstats/factor.html <hr /> PDF cran.r-project.org/web/packages/HSAUR/vignettes/iêu /> uga.edu/strata/software/pdf/pcaTutorial.pdf cs.otago.ac.nz/cosc453/student_tutorial /

— Lọ

11

Thành phần chính là sự kết hợp tuyến tính có trọng số của tất cả các yếu tố của bạn (X's).

ví dụ: PC1 = 0,1X1 + 0,3X2

Sẽ có một thành phần cho mỗi yếu tố (mặc dù nói chung một số lượng nhỏ được chọn).

Các thành phần được tạo ra sao cho chúng có mối tương quan bằng không (là trực giao), theo thiết kế.

Do đó, thành phần PC1 không nên giải thích bất kỳ biến thể nào trong thành phần PC2.

Bạn có thể muốn thực hiện hồi quy trên biến Y của bạn và đại diện PCA của X của bạn, vì chúng sẽ không có đa cộng tuyến. Tuy nhiên, điều này có thể khó diễn giải.

Nếu bạn có nhiều X hơn các quan sát, phá vỡ OLS, bạn có thể hồi quy các thành phần của mình và chỉ cần chọn một số lượng nhỏ hơn các thành phần biến thể cao nhất.

Phân tích thành phần chính của Jollife một cuốn sách rất chuyên sâu và được trích dẫn nhiều về chủ đề này

Điều này cũng tốt: http://www.statsoft.com/textbook/principal-components-factor-analysis/

— Neil McGuigan
nguồn

11

Các thành phần chính là trực giao theo định nghĩa, do đó, bất kỳ cặp PC nào cũng sẽ không có tương quan.

Tuy nhiên, PCA có thể được sử dụng trong hồi quy nếu có một số lượng lớn các biến giải thích. Chúng có thể được giảm xuống một số lượng nhỏ các thành phần chính và được sử dụng làm công cụ dự đoán trong hồi quy.

— Rob Hyndman
nguồn

Đó không phải là FA rồi sao?

— Roman Luštrik

3

Số FA không phải là hồi quy. Tôi đang đề cập đến một biến trả lời được hồi quy dựa trên các thành phần chính được tính toán từ một số lượng lớn các biến giải thích. Các thành phần chính liên quan chặt chẽ đến các yếu tố của FA.

— Rob Hyndman

Tôi xin lỗi, tôi nên đã chính xác hơn trong nhận xét của tôi. Bài viết của bạn rằng các biến giải thích có thể được giảm xuống một số lượng nhỏ PC vang lên tiếng chuông "phân tích nhân tố".

— Roman Luštrik

Trong tập hợp có n biến, n PC có thể được trích xuất, nhưng bạn có thể quyết định số lượng bạn muốn giữ, ví dụ tiêu chí Guttman-Keizer nói: giữ cho tất cả các PC có giá trị riêng (phương sai) lớn hơn 1. Vì vậy .. .

— aL3xa

7

Cẩn thận ... chỉ vì các PC được xây dựng trực giao với nhau không có nghĩa là không có mẫu hoặc một PC không thể xuất hiện để "giải thích" điều gì đó về các PC khác.

Xem xét dữ liệu 3D (X, Y, Z) mô tả một số lượng lớn các điểm phân bố đều trên bề mặt của một nền bóng đá Mỹ (đó là một hình elip - không phải hình cầu - cho những người chưa bao giờ xem bóng đá Mỹ). Hãy tưởng tượng rằng bóng đá ở trong một cấu hình tùy ý sao cho cả X và Y và Z đều không nằm dọc theo trục dài của bóng đá.

Các thành phần chính sẽ đặt PC1 dọc theo trục dài của bóng đá, trục mô tả phương sai nhất trong dữ liệu.

Đối với bất kỳ điểm nào trong kích thước PC1 dọc theo trục dài của bóng đá, lát phẳng được biểu thị bởi PC2 và PC3 sẽ mô tả một vòng tròn và bán kính của lát cắt tròn này phụ thuộc vào kích thước PC1. Đúng là hồi quy của PC2 hoặc PC3 trên PC1 sẽ cho hệ số 0 trên toàn cầu, nhưng không vượt quá các phần nhỏ hơn của bóng đá .... và rõ ràng là đồ thị 2D của PC1 và PC2 sẽ hiển thị ranh giới giới hạn "thú vị" đó là hai giá trị, phi tuyến và đối xứng.

— Paul
nguồn

3

Nếu dữ liệu của bạn có chiều cao và ồn ào, và bạn không có số lượng mẫu lớn, bạn sẽ gặp nguy hiểm khi sử dụng quá mức. Trong các trường hợp như vậy, sẽ hợp lý khi sử dụng PCA (có thể chiếm phần lớn của phương sai dữ liệu; tính trực giao không phải là vấn đề) hoặc phân tích nhân tố (có thể tìm thấy các biến giải thích thực sự bên dưới dữ liệu) để giảm tính chiều của dữ liệu và sau đó đào tạo một mô hình hồi quy với họ.

Để biết các phương pháp tiếp cận dựa trên phân tích nhân tố, hãy xem bài viết này Mô hình hồi quy nhân tố Bayes và phiên bản Bayesian không đối xứng của mô hình này không cho rằng bạn là một tiên nghiệm biết số lượng "các yếu tố liên quan" thực sự (hoặc các thành phần chính trong trường hợp PCA).

Tôi muốn nói thêm rằng trong nhiều trường hợp, việc giảm kích thước được giám sát (ví dụ: Phân tích phân biệt đối xử của Fisher ) có thể cải thiện các cách tiếp cận dựa trên PCA hoặc FA đơn giản, bởi vì bạn có thể sử dụng thông tin nhãn trong khi thực hiện giảm kích thước.

— gỗ mun1
nguồn

0

bạn có thể rút nó ra nếu điểm PC dự đoán được trích xuất từ các biến hoặc trường hợp khác nhau, so với điểm PC dự đoán. nếu đó là trường hợp dự đoán và dự đoán sẽ không trực giao, hoặc ít nhất là chúng không cần, tất nhiên mối tương quan là không được đảm bảo.

— Tomas Boncompte
nguồn