PCA có theo sau một vòng quay (như varimax) vẫn là PCA không?


63

Tôi đã cố gắng tái tạo một số nghiên cứu (sử dụng PCA) từ SPSS trong R. Theo kinh nghiệm của tôi, principal() chức năng từ gói psychlà chức năng duy nhất đến gần (hoặc nếu bộ nhớ của tôi phục vụ tôi đúng, chết) để khớp với đầu ra. Để phù hợp với kết quả tương tự như trong SPSS, tôi đã phải sử dụng tham số principal(..., rotate = "varimax"). Tôi đã thấy các bài báo nói về cách họ đã làm PCA, nhưng dựa trên đầu ra của SPSS và sử dụng xoay vòng, nghe có vẻ giống như phân tích nhân tố.

Câu hỏi: PCA, ngay cả sau khi xoay (sử dụng varimax), vẫn là PCA? Tôi có ấn tượng rằng đây có thể là trên thực tế phân tích nhân tố ... Trong trường hợp không phải vậy, tôi còn thiếu chi tiết nào?


4
Về mặt kỹ thuật, bất cứ thứ gì bạn có sau khi quay không phải thành phần chính nữa.
Gala

2
Xoay chính nó không thay đổi nó. Xoay hay không, phân tích là những gì nó được. PCA không phải là FA trong định nghĩa hẹp về "phân tích nhân tố" và PCA FA theo định nghĩa rộng hơn về "phân tích nhân tố". stats.stackexchange.com/a/94104/3277
ttnphns

1
Xin chào @Roman! Tôi đã xem xét chủ đề cũ này và tôi ngạc nhiên khi bạn đánh dấu câu trả lời của Brett là được chấp nhận. Bạn đang hỏi liệu xoay PCA + vẫn là PCA hay là FA; Câu trả lời của Brett không nói một từ nào về phép quay! Nó cũng không đề cập đến principalchức năng mà bạn hỏi về. Nếu câu trả lời của anh ấy thực sự trả lời câu hỏi của bạn, thì có lẽ câu hỏi của bạn không được xây dựng đầy đủ; bạn sẽ xem xét chỉnh sửa? Mặt khác, tôi thấy rằng câu trả lời của tiến sĩ gần hơn với việc trả lời câu hỏi của bạn. Lưu ý rằng bạn có thể thay đổi câu trả lời được chấp nhận bất cứ lúc nào.
amip nói rằng Phục hồi lại

1
Tôi nên nói thêm rằng tôi đang làm một câu trả lời mới, chi tiết hơn cho câu hỏi của bạn, vì vậy tôi tò mò muốn biết liệu bạn có thực sự quan tâm đến chủ đề này không. Rốt cuộc, bốn và đã nhiều năm trôi qua ...
amip nói rằng Phục hồi lại

3
@amoeba thật không may trong tương lai tôi không thể trả lời tại sao tôi chấp nhận câu trả lời đó. Xem lại con thú cũ 4,5 năm sau, tôi nhận ra không có câu trả lời nào đến gần. mbq bắt đầu đầy hứa hẹn nhưng không có lời giải thích. Nhưng không có vấn đề gì, chủ đề này rất khó hiểu, có lẽ là do thuật ngữ sai trong phần mềm thống kê phổ biến cho các ngành khoa học xã hội mà tôi sẽ không đặt tên bằng một chữ viết tắt bốn chữ cái. Xin vui lòng gửi câu trả lời và ping tôi, tôi sẽ chấp nhận nó nếu tôi thấy nó gần hơn với câu trả lời của tôi.
Roman Luštrik

Câu trả lời:


53

Câu hỏi này phần lớn là về định nghĩa của PCA / FA, vì vậy ý ​​kiến ​​có thể khác nhau. Ý kiến ​​của tôi là PCA + varimax không nên được gọi là PCA hoặc FA, được gọi một cách rõ ràng hơn, ví dụ như "PCA varimax-rotated".

Tôi nên thêm rằng đây là một chủ đề khá khó hiểu. Trong câu trả lời này, tôi muốn giải thích một vòng quay thực sự là gì ; điều này sẽ đòi hỏi một số toán học. Một độc giả bình thường có thể bỏ qua trực tiếp để minh họa. Chỉ sau đó chúng ta mới có thể thảo luận về việc xoay PCA + nên hay không nên được gọi là "PCA".

Một tài liệu tham khảo là cuốn sách "Phân tích thành phần chính" của Jolliffe, phần 11.1 "Xoay vòng các thành phần chính", nhưng tôi thấy nó có thể rõ ràng hơn.


Đặt là ma trận dữ liệu n × p mà chúng ta giả sử là trung tâm. Lượng PCA ( xem câu trả lời của tôi ở đây ) cho một phân hủy ít có giá trị: X = U S V . Có hai chế độ xem tương đương nhưng miễn phí về phân tách này: chế độ xem "chiếu" kiểu PCA hơn và chế độ xem "biến tiềm ẩn" kiểu FA hơn.Xn×pX=USV

Theo quan điểm kiểu PCA, chúng tôi đã tìm thấy một loạt các hướng trực giao (đây là các hàm riêng của ma trận hiệp phương sai, còn được gọi là "hướng chính" hoặc "trục") và "thành phần chính" U S (còn được gọi là thành phần chính " điểm số ") là các phép chiếu của dữ liệu theo các hướng này. Thành phần chủ yếu là không tương quan, là người đầu tiên có tối đa sai có thể, vv Chúng tôi có thể viết: X = U SV = Điểm hướng chính .VUS

X=USV=ScoresPrincipal directions.

Theo quan điểm kiểu FA, chúng tôi đã tìm thấy một số "yếu tố tiềm ẩn" đơn vị không tương quan làm phát sinh các biến quan sát thông qua "tải". Thật vậy, là các thành phần chính được tiêu chuẩn hóa (không tương quan và với phương sai đơn vị) và nếu chúng ta xác định tải làL=VS/U~=n1U , sau đó X=L=VS/n1(Lưu ý rằng S=S). Cả hai quan điểm là tương đương. Lưu ý rằng tải trọng là vector riêng thu nhỏ lại bởi các giá trị riêng tương ứng (S/

X=n1U(VS/n1)=U~L=Standardized scoresLoadings.
S=S là các giá trị riêng của ma trận hiệp phương sai).S/n1

k<p

XUkSkVk=U~kLk.
k×kTTT=I
XUkSkVk=UkTTSkVk=U~rotLrot,
Lrot=LkTU~rot=U~kTTLrot trở nên càng gần với sự thưa thớt càng tốt, để tạo điều kiện cho sự giải thích của nó.)

Lưu ý rằng những gì được xoay là: (1) điểm chuẩn, (2) tải. Nhưng không phải là điểm số thô và không phải là hướng chính! Vì vậy, vòng quay xảy ra trong không gian tiềm ẩn , không phải trong không gian ban đầu. Điều này là hoàn toàn quan trọng.

LrotkRpkX

ΣLkLk=LrotLrot.

Nhưng quan điểm kiểu PCA thực tế đã sụp đổ. Tải trọng xoay không tương ứng với các hướng / trục trực giao trong nữa, tức là các cột của không trực giao! Tồi tệ hơn, nếu bạn [trực tiếp] chiếu dữ liệu lên các hướng được cung cấp bởi các tải được xoay, bạn sẽ nhận được các phép chiếu tương quan (!) Và sẽ không thể khôi phục điểm số. [Thay vào đó, để tính điểm chuẩn hóa sau khi quay, người ta cần nhân ma trận dữ liệu với giả nghịch đảo của tải trọng . Ngoài ra, người ta có thể chỉ cần xoay điểm chuẩn hóa ban đầu với ma trận xoay vòng:RpLrotU~rot=X(Lrot+)U~rot=U~T ] Ngoài ra, các thành phần được xoay không thu được liên tục số lượng phương sai tối đa: phương sai được phân phối lại giữa các thành phần (thậm chí mặc dù tất cả các thành phần xoay nắm bắt chính xác nhiều phương sai như tất cả các thành phần chính gốc ).kk

Đây là một minh họa. Dữ liệu là một hình elip 2D kéo dài dọc theo đường chéo chính. Hướng chính đầu tiên là đường chéo chính, hướng thứ hai là trực giao với nó. Các vectơ tải PCA (các hàm riêng được chia tỷ lệ theo giá trị riêng) được hiển thị bằng màu đỏ - chỉ theo cả hai hướng và cũng được kéo dài bởi một yếu tố không đổi cho khả năng hiển thị. Sau đó, tôi áp dụng một vòng quay trực giao bằng cho các tải. Kết quả tải vectơ được hiển thị trong màu đỏ tươi. Lưu ý làm thế nào chúng không trực giao (!).30

Xoay PCA

Một trực giác theo kiểu FA ở đây như sau: hãy tưởng tượng một "không gian tiềm ẩn" nơi các điểm lấp đầy một vòng tròn nhỏ (đến từ Gaussian 2D với phương sai đơn vị). Các phân phối điểm này sau đó được kéo dài dọc theo các tải của PCA (màu đỏ) để trở thành hình elip dữ liệu mà chúng ta thấy trên hình này. Tuy nhiên, cùng một phân phối các điểm có thể được xoay và sau đó kéo dài dọc theo các tải PCA được xoay (đỏ tươi) để trở thành cùng một hình elip dữ liệu .

[Để thực sự thấy rằng một vòng quay trực giao của tải trọng là một vòng quay , người ta cần nhìn vào một biplot PCA; ở đó các vectơ / tia tương ứng với các biến ban đầu sẽ chỉ xoay.]


Hãy để chúng tôi tóm tắt. Sau khi xoay trực giao (chẳng hạn như varimax), các trục "gốc xoay" không trực giao và các hình chiếu trực giao trên chúng không có ý nghĩa. Vì vậy, người ta nên bỏ toàn bộ quan điểm trục / dự đoán này. Sẽ là kỳ lạ khi vẫn gọi nó là PCA (đó là tất cả về các phép chiếu với phương sai tối đa, v.v.).

Từ quan điểm kiểu FA, chúng tôi chỉ đơn giản xoay các yếu tố tiềm ẩn (được chuẩn hóa và không tương quan), đó là một hoạt động hợp lệ. Không có "dự đoán" nào trong FA; thay vào đó, các yếu tố tiềm ẩn tạo ra các biến quan sát thông qua tải. Logic này vẫn được bảo tồn. Tuy nhiên, chúng tôi đã bắt đầu với các thành phần chính, không thực sự là các yếu tố (vì PCA không giống với FA). Vì vậy, sẽ thật kỳ lạ khi gọi nó là FA.

Thay vì tranh luận liệu một "nên" thay vì gọi nó là PCA hay FA, ​​tôi sẽ đề nghị nên tỉ mỉ trong việc chỉ định thủ tục được sử dụng chính xác: "PCA theo sau là một vòng xoay varimax".


Đoạn tái bút. tốt để xem xét một quy trình luân chuyển thay thế, nơi được chèn giữa và . Điều này sẽ xoay điểm số thô và trình xác định (thay vì điểm và tải tiêu chuẩn hóa). Vấn đề lớn nhất với cách tiếp cận này là sau khi "xoay vòng" như vậy, điểm số sẽ không còn bị làm phiền nữa, điều này khá nguy hiểm cho PCA. Người ta có thể làm điều đó, nhưng đó không phải là cách quay thường được hiểu và áp dụng.TTUSV


Tôi không hoàn toàn hiểu văn bản xung quanh bức tranh. Bạn sử dụng "tải" nhiều lần: PCA loading vectors... are shown in red, stretched along the rotated PCA loadings (magenta). Tôi tự hỏi làm thế nào "tải" hoặc "vectơ" của chúng có thể được hiển thị dưới dạng các trục trên biểu đồ phân tán dữ liệu. Bạn có thể, xin vui lòng, làm cho nó rõ ràng hơn? Và ý tưởng "kéo dài"? Cảm ơn.
ttnphns

1
Điều này có thể liên quan đến cuộc thảo luận dài gần đây mà chúng tôi đã có về việc tải "kéo dài một không gian con" trong không gian biến hay không. Trong câu trả lời này, tôi đã sử dụng "vectơ tải" (hoặc đơn giản là "tải") để chỉ một cột của ma trận tải. Trong ví dụ của tôi, dữ liệu là 2D tức là có hai biến và vì vậy tải là vectơ 2D. Do đó tôi có thể vẽ chúng trên biểu đồ phân tán dữ liệu (tôi đã thu nhỏ chúng theo một số yếu tố không đổi cho khả năng hiển thị). Trong PCA, tải tất nhiên là trực giao (chúng tỷ lệ thuận với các hàm riêng). Sau varimax, chúng không còn nữa.
amip nói phục hồi Monica

Đoạn văn về "kéo dài" (ngay sau bức tranh) có lẽ tôi nên minh họa rõ hơn; Tôi có thể thấy rằng nó không rõ ràng lắm.
amip nói rằng Phục hồi Monica

Tôi nghĩ rằng nếu bạn nhắm đến việc vẽ đồ thị trực giao hoặc không chính thống của một số vectơ (chẳng hạn như tải), bạn nên vẽ chúng như mũi tên. Hoặc có thể tôi không hiểu bạn?
ttnphns

1
Tôi đồng ý rằng sử dụng mũi tên sẽ tốt hơn, tôi chỉ bỏ qua "đầu mũi tên" để vẽ đồ thị. Tôi có thể làm lại con số này để thêm chúng. Ngoài ra, tôi đã vẽ từng vectơ chỉ theo cả hai hướng vì dấu hiệu của chúng không quan trọng.
amip nói phục hồi Monica

29

Phân tích thành phần chính (PCA) và Phân tích nhân tố chung (CFA) là các phương pháp riêng biệt. Thông thường, chúng tạo ra kết quả tương tự và PCA được sử dụng làm phương pháp trích xuất mặc định trong các thói quen Phân tích nhân tố SPSS. Điều này chắc chắn dẫn đến rất nhiều nhầm lẫn về sự khác biệt giữa hai.

Điểm mấu chốt là, đây là hai mô hình khác nhau, về mặt khái niệm. Trong PCA, các thành phần là các tổ hợp tuyến tính trực giao thực tế giúp tối đa hóa tổng phương sai. Trong FA, các yếu tố là các kết hợp tuyến tính tối đa hóa phần được chia sẻ của phương sai - cơ bản là "các cấu trúc tiềm ẩn". Đó là lý do tại sao FA thường được gọi là "phân tích nhân tố chung". FA sử dụng nhiều thói quen tối ưu hóa và kết quả, không giống như PCA, phụ thuộc vào thói quen tối ưu hóa được sử dụng và điểm bắt đầu cho các thói quen đó. Đơn giản là không có một giải pháp duy nhất.

Trong R, hàm factanal () cung cấp cho CFA khả năng trích xuất tối đa. Vì vậy, bạn không nên mong đợi nó tái tạo kết quả SPSS dựa trên trích xuất PCA. Nó đơn giản không phải là cùng một mô hình hoặc logic. Tôi không chắc liệu bạn có nhận được kết quả tương tự hay không nếu bạn đã sử dụng trích xuất Khả năng tối đa của SPSS vì chúng có thể không sử dụng cùng một thuật toán.

Tuy nhiên, để tốt hơn hoặc tồi tệ hơn trong R, bạn có thể sao chép "phân tích nhân tố" hỗn hợp mà SPSS cung cấp làm mặc định. Đây là quy trình trong R. Với mã này, tôi có thể sao chép kết quả "Phân tích nhân tố" của SPSS bằng cách sử dụng bộ dữ liệu này. (Ngoại trừ dấu hiệu không xác định). Kết quả đó sau đó cũng có thể được xoay bằng bất kỳ phương pháp xoay có sẵn nào của R.

# Load the base dataset attitude to work with.
data(attitude)
# Compute eigenvalues and eigen vectors of the correlation matrix.
pfa.eigen<-eigen(cor(attitude))
# Print and note that eigen values are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigen values > 1 = 2
pfa.eigen$values
# set a value for the number of factors (for clarity)
factors<-2
# Extract and transform two components.
pfa.eigen$vectors [ , 1:factors ]  %*% 
+ diag ( sqrt (pfa.eigen$values [ 1:factors ] ),factors,factors )

+1 để thực sự giúp giảm bớt sự nhầm lẫn xung quanh SPSS vs R tại đây. Hai câu hỏi vẫn còn: R prcomphoặc princomplàm gì so với cách tiếp cận hỗn hợp của SPSS? SPSS thực sự làm gì bằng cách trích xuất?
hans0l0

à, và tôi có thể thêm cách tính điểm cho PC1 vào giải pháp của bạn không: chuẩn hóa zz <- scale(attitude,T,T)pc1 <- zz %*% solve(cor(attitude),lamba[,1]). Trong đó lambda là kết quả của dòng cuối cùng của ví dụ @Brett Magills.
hans0l0

3
-1. Mặc dù có rất nhiều thông tin hữu ích trong câu trả lời này, tôi thấy rằng nó hoàn toàn không trả lời câu hỏi ban đầu. Câu hỏi ban đầu là liệu xoay PCA + vẫn có thể được coi là PCA (hay đúng hơn là FA). Câu trả lời của bạn thậm chí không đề cập đến luân chuyển! Vì vậy, làm thế nào nó có thể là một câu trả lời?
amip nói rằng Phục hồi lại

1
Có thể hữu ích khi lưu ý rằng Phân tích nhân tố chung không giống như Phân tích nhân tố khẳng định (cũng là CFA), đây là một quy trình hoàn toàn khác.
Biên giới Richard

11

Câu trả lời này là để trình bày, trong một biểu đồ đường dẫn, những điều mà @amoeba đã suy luận trong câu trả lời sâu sắc (nhưng hơi phức tạp) của anh ấy về chủ đề này (Tôi là một loại đồng ý với nó 95%) và cách chúng xuất hiện với tôi .

PCA ở dạng tối thiểu, phù hợp của nó là xoay vòng trực giao cụ thể của dữ liệu tương quan với dạng không tương quan của nó, với các thành phần chính lướt qua liên tục ít hơn và ít biến thiên tổng thể. Nếu giảm kích thước là tất cả những gì chúng ta muốn, chúng ta thường không tính toán tải trọng và bất cứ thứ gì chúng kéo theo chúng. Chúng tôi hài lòng với kết (thô) điểm thành phần chính . [Xin lưu ý rằng các ký hiệu trên biểu đồ không tuân theo chính xác @ amoeba, - Tôi tuân theo những gì tôi chấp nhận trong một số câu trả lời khác của mình.]P

Trên biểu đồ, tôi lấy một ví dụ đơn giản về hai biến p=2và sử dụng cả hai thành phần chính được trích xuất. Mặc dù chúng tôi thường chỉ giữ một vài m<pthành phần đầu tiên , nhưng đối với câu hỏi lý thuyết mà chúng tôi đang xem xét ("PCA có xoay PCA hay không?") Sẽ không có gì khác biệt nếu giữ mhoặc tất cả pchúng; ít nhất là trong câu trả lời cụ thể của tôi.

Thủ thuật của tải trọng là kéo thang đo (cường độ, độ biến thiên, quán tính ) ra khỏi các thành phần (điểm số thô) và lên các hệ số (eigenvector) để trước đây là "khung" (tiêu chuẩn pr . điểm thành phần) và điểm sau là thịt (tải). Bạn khôi phục dữ liệu tốt như nhau với cả hai: . Nhưng tải triển vọng mở: (i) để giải thích các thành phần; (ii) sẽ được luân chuyển; (iii) để khôi phục mối tương quan / hiệp phương sai của các biến. Tất cả là do thực tế là sự biến đổi của dữ liệu đã được ghi trong các tải, như tải của chúng.V P z Một X = P V ' = P z Một 'LVPzAX=PV=PzA

Và họ có thể trả lại tải đó trở lại các điểm dữ liệu bất cứ lúc nào - bây giờ hoặc sau khi xoay . Nếu chúng ta quan niệm về một phép quay trực giao, chẳng hạn như varimax, điều đó có nghĩa là chúng ta muốn các thành phần vẫn không bị lỗi sau khi xoay xong. Chỉ dữ liệu với ma trận hiệp phương sai hình cầu, khi được quay trực giao, bảo tồn tính không tương quan. Và voila, các thành phần chính được tiêu chuẩn hóa (mà trong máy học thường được gọi là "dữ liệu được làm trắng bằng PCA") là dữ liệu ma thuật ( thực sự tỷ lệ thuận với bên trái, tức là các hàm riêng của dữ liệu). Trong khi chúng tôi đang tìm kiếm ma trận xoay varimaxP z QPzPzQđể tạo điều kiện cho việc giải thích các tải dữ liệu, các điểm dữ liệu đang chờ đợi một cách thụ động trong tính toàn cầu và bản sắc của chúng (hoặc "độ trắng").

Sau khi tìm thấy , xoay vòng của tương đương với cách tính thông thường của điểm thành phần chính được chuẩn hóa thông qua nghịch đảo tổng quát của ma trận tải, - lần này, của các tải được xoay , (xem biểu đồ ). Các thành phần chính xoay vòng varimax kết quả, không được , như chúng tôi muốn, cộng với dữ liệu được khôi phục bởi chúng một cách độc đáo như trước khi xoay: . Sau đó chúng tôi có thể cung cấp cho họ trở lại quy mô của họ lắng đọng (và theo đó xoay) trong - để unstandardize họ: .P z A r C z X = P z A = C z A r A r CQPzArCzX=PzA=CzArArC

Chúng ta nên lưu ý rằng "các thành phần chính xoay vòng varimax" không còn các thành phần chính nữa: Tôi đã sử dụng ký hiệu Cz, C, thay vì Pz, P, để nhấn mạnh nó. Chúng chỉ là "thành phần". Thành phần chính là duy nhất, nhưng thành phần có thể nhiều. Các phép quay khác với varimax sẽ mang lại các biến mới khác cũng được gọi là các thành phần và cũng không tương thích, bên cạnh các biến của chúng ta .C

Ngoài ra, có thể nói, các thành phần chính được xoay varimax (hoặc nói cách khác là trực giao) (bây giờ chỉ là "các thành phần"), trong khi vẫn không tương thích, trực giao, không ngụ ý rằng tải của chúng vẫn còn trực giao. Các cột của là trực giao lẫn nhau (cũng như các hàm riêng ), nhưng không phải là các cột của (xem thêm chú thích ở đây ).V A rAVAr

Và cuối cùng - xoay các thành phần chính thô với của chúng tôi không phải là hành động hữu ích. Chúng tôi sẽ nhận được một số varibles tương quan với ý nghĩa có vấn đề. xuất hiện như để tối ưu hóa (theo một cách cụ thể nào đó) cấu hình của các tải trọng đã hấp thụ tất cả các tỷ lệ vào chúng . không bao giờ được đào tạo để xoay các điểm dữ liệu với tất cả các tỷ lệ còn lại trên chúng. Xoay với sẽ tương đương với xoay eigenvector với (thànhQ " C "PQ"C"Q P Q V Q V r " C " = X V rQQPQ VQVr) và sau đó tính toán điểm thành phần thô là . Những "đường dẫn" được ghi nhận bởi @amoeba trong phần Postcriptum của họ."C"=XVr

Những hành động được phác thảo cuối cùng này (vô nghĩa đối với hầu hết các phần) nhắc nhở chúng ta rằng các hàm riêng, không chỉ tải, có thể được xoay, nói chung. Ví dụ, quy trình varimax có thể được áp dụng cho chúng để đơn giản hóa cấu trúc của chúng . Nhưng vì eigenvector không hữu ích trong việc diễn giải ý nghĩa của các thành phần như các tải trọng, nên việc quay vòng của eigenvector hiếm khi được thực hiện.

nhập mô tả hình ảnh ở đây

Vì vậy, PCA với vòng xoay varimax (hoặc khác) tiếp theo là

  • vẫn PCA
  • mà trên đường từ bỏ các thành phần chính cho chỉ các thành phần
  • có khả năng nhiều hơn (hơn PC) có thể hiểu là "những đặc điểm tiềm ẩn"
  • nhưng không được mô hình hóa một cách bão hòa như những người đó (PCA không phải là phân tích nhân tố công bằng)

Tôi đã không đề cập đến phân tích nhân tố trong câu trả lời này. Dường như với tôi rằng việc sử dụng từ "không gian tiềm ẩn" của @ amoeba có một chút rủi ro trong bối cảnh câu hỏi được hỏi. Tuy nhiên, tôi sẽ đồng ý rằng xoay vòng phân tích PCA + có thể được gọi là " chế độ xem kiểu FA trên PCA".


Làm thế nào để tính toán giá trị riêng của các thành phần xoay?

1
@Haga, các thành phần được xoay không phải thành phần chính nữa và vì vậy chúng không thể có giá trị riêng. Tuy nhiên, phương sai của chúng bằng với tổng cột của tải trọng bình phương (vui lòng xem phần dưới cùng của biểu đồ của tôi - mũi tên cho điểm không đạt tiêu chuẩn).
ttnphns

8

Trong psych::principal()bạn có thể làm các loại khác nhau của phép quay / biến đổi để Component bạn trích Principal (s) hoặc '' máy tính '' bằng cách sử dụng rotate=tham số, như: "none", "varimax"(mặc định), "quatimax", "promax", "oblimin", "simplimax", và "cluster". Bạn phải quyết định theo kinh nghiệm xem cái nào sẽ có ý nghĩa trong trường hợp của bạn, nếu cần, tùy thuộc vào sự đánh giá của chính bạn và kiến ​​thức về vấn đề đang được điều tra. Một câu hỏi quan trọng có thể cho bạn một gợi ý: câu hỏi nào dễ hiểu hơn (một lần nữa nếu cần)?

Trong phần trợ giúp bạn có thể thấy những điều sau đây cũng hữu ích:

Điều quan trọng là phải nhận ra rằng các thành phần chính được quay không phải là các thành phần chính (các trục liên quan đến phân rã giá trị bản địa) mà chỉ là các thành phần. Để chỉ ra điều này, các thành phần chính không được bảo vệ được dán nhãn là PCi, trong khi các PC được xoay hiện được gắn nhãn là RCi (đối với các thành phần được xoay) và các thành phần được chuyển đổi xiên thành TCi (đối với các thành phần được chuyển đổi). (Cảm ơn Ulrike Gromping vì gợi ý này.)


7

Tôi hiểu rằng sự khác biệt giữa phân tích PCA và yếu tố chủ yếu là ở chỗ có một thuật ngữ lỗi hay không. Do đó, PCA có thể, và sẽ, đại diện trung thực cho dữ liệu trong khi phân tích nhân tố ít trung thành với dữ liệu được đào tạo nhưng cố gắng thể hiện các xu hướng cơ bản hoặc tính cộng đồng trong dữ liệu. Theo cách tiếp cận tiêu chuẩn, PCA không được xoay vòng, nhưng về mặt toán học có thể làm như vậy, do đó mọi người thỉnh thoảng làm điều đó. Tôi đồng ý với các nhà bình luận rằng "ý nghĩa" của các phương thức này có phần khó hiểu và có lẽ là khôn ngoan khi chắc chắn rằng chức năng bạn đang sử dụng thực hiện đúng như bạn dự định - ví dụ, như bạn lưu ý R có một số chức năng thực hiện một loại PCA khác với người dùng SPSS quen thuộc.


2

Nhờ sự hỗn loạn trong định nghĩa của cả hai, chúng thực sự là một từ đồng nghĩa. Đừng tin lời nói và nhìn sâu vào bến cảng để tìm phương trình.


3
Tôi vẫn đang cố gắng để hiểu các phương trình (nhà sinh vật học ahoy), đó là lý do tại sao tôi chuyển sang cộng đồng ở đây, hy vọng nó sẽ giúp tôi giải thích sự khác biệt trong các điều khoản của giáo dân.
Roman Luštrik

Tôi nghĩ rằng hệ tư tưởng là FA giả định rằng quá trình này được điều khiển bởi một số 'yếu tố ẩn', trong khi dữ liệu chúng ta có bao gồm một số kết hợp của chúng. Do đó, vấn đề của FA là tái cấu trúc các yếu tố tiềm ẩn bằng cách nào đó. Và PCA - một phương pháp lặp đi lặp lại xây dựng một biến mới (PC) bằng cách trộn các biến cũ để tham lam hấp thụ phương sai của dữ liệu. Người ta có thể nói rằng PC tương đương với các yếu tố của FA và ở đây chúng sẽ không thể phân biệt được. Nhưng người ta cũng có thể thực hiện một số thay đổi đối với PCA để biến nó thành cơ sở của một số 'loại FA' khác, và vì vậy vấn đề bắt đầu.

Vì vậy, về cơ bản, bạn nên nghĩ về những gì bạn muốn làm (không phải từ thông dụng nào bạn muốn sử dụng). Tôi biết điều đó thật khó khăn, đặc biệt là trong khi có các nhà sinh vật học xung quanh (với một số từ thông dụng sử dụng mở rộng hoạt động tốt trong sinh học, vì vậy họ chỉ cho rằng điều này là phổ biến đối với các ngành khác); Tuy nhiên, đây là cách khoa học nên được thực hiện. Hơn sử dụng Google (hoặc trang web này) để đánh giá thuật toán tốt cho nó. Cuối cùng, sử dụng các bến cảng để tìm một chức năng / nút thực hiện và gõ / nhấp vào nó.

1

Mặc dù câu hỏi này đã là một câu trả lời được chấp nhận, tôi muốn thêm một câu hỏi vào điểm của câu hỏi.

"PCA" - nếu tôi nhớ chính xác - có nghĩa là "phân tích thành phần chính"; do đó, miễn là bạn đang phân tích các thành phần chính, có thể là không quay hoặc xoay, chúng tôi vẫn đang phân tích "các thành phần chính" (được tìm thấy bởi phân tách ma trận ban đầu thích hợp).

Tôi đã xác định rằng sau khi "varimax" -rotation trên hai thành phần chính đầu tiên, chúng ta có "giải pháp varimax của hai pc đầu tiên" (hoặc một cái gì đó khác), nhưng vẫn nằm trong khuôn khổ phân tích các thành phần chính, hoặc ngắn hơn, nằm trong khuôn khổ của "pca".

Để làm cho quan điểm của tôi rõ ràng hơn: Tôi không cảm thấy rằng câu hỏi đơn giản về xoay vòng đưa ra vấn đề phân biệt giữa EFA và CFA (ví dụ như đã đề cập / đưa vào vấn đề trong câu trả lời của Brett)


Tại sao bạn đột nhiên đề cập đến CFA trong câu cuối cùng?
amip nói rằng Phục hồi lại

@amoeba: Tôi đã được chỉ ra bởi thuật ngữ đó bởi câu trả lời được trao 23 điểm của _Brett và cảm thấy rằng thật đáng để nhận xét điều gì đó về nó. Nhưng có lẽ tốt hơn là nói "FA" thay vào đó. Tôi sẽ nghĩ về nó ... (Nghĩ về nó tôi mơ hồ nhớ rằng "CFA" được xem là "phân tích nhân tố xác nhận" thay vì "chung ..." trong các nghiên cứu trước đây của tôi về phương pháp đó, có thể là trong thập niên 80 hoặc 90'ies)
Gottfried Helms

Chỉ là ba đoạn đầu tiên trong câu trả lời của bạn là về PCA vs FA, và sau đó là đoạn cuối có vẻ như nó tóm tắt những đoạn trước, đột nhiên là về EFA vs CFA.
amip nói rằng Phục hồi lại

@amoeba: lần chỉnh sửa cuối cùng của tôi có làm cho ý định / câu của tôi rõ ràng hơn không?
Gottfried Helms

1

Tôi thấy điều này là hữu ích nhất: Abdi & Williams, 2010, phân tích thành phần chính .

VÒNG XOAY

Sau khi số lượng thành phần đã được xác định và để thuận tiện cho việc giải thích, phân tích thường bao gồm một vòng quay của các thành phần được giữ lại [xem, ví dụ, Ref 40 và 67, để biết thêm chi tiết]. Hai loại xoay chính được sử dụng: trực giao khi các trục mới cũng trực giao với nhau và xiên khi các trục mới không bắt buộc phải trực giao. Do các phép quay luôn được thực hiện trong một không gian con, nên các trục mới sẽ luôn giải thích ít quán tính hơn các thành phần ban đầu (được tính là tối ưu). Tuy nhiên, một phần của quán tính được giải thích bởi tổng không gian con sau khi quay giống như trước khi quay (chỉ phân vùng quán tính đã thay đổi). Cũng cần lưu ý rằng vì việc quay vòng luôn diễn ra trong một không gian con (nghĩa là không gian của các thành phần được giữ lại), sự lựa chọn của không gian con này ảnh hưởng mạnh đến kết quả của vòng quay. Do đó, chúng tôi khuyên bạn nên thử một số kích thước cho không gian con của các thành phần được giữ lại để đánh giá mức độ mạnh mẽ của việc giải thích xoay vòng. Khi thực hiện một phép quay, các thuật ngữ tải hầu như luôn luôn đề cập đến các yếu tố của ma trận Q.

(xem bài viết về định nghĩa của Q).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.