Các phương pháp tính điểm yếu tố, và ma trận điểm hệ số điểm số điểm số trong PCA hoặc phân tích nhân tố là gì?


20

Theo hiểu biết của tôi, trong PCA dựa trên các mối tương quan, chúng ta có các hệ số (= thành phần chính trong trường hợp này), không có gì ngoài các mối tương quan giữa các biến và các yếu tố. Bây giờ khi tôi cần tạo điểm yếu tố trong SPSS, tôi có thể trực tiếp lấy điểm yếu tố của từng người trả lời cho từng yếu tố. Tôi cũng quan sát thấy rằng nếu tôi nhân " ma trận hệ số điểm thành phần " (do SPSS tạo ra) với các biến ban đầu được tiêu chuẩn hóa, tôi sẽ nhận được điểm yếu tố tương tự như thu được từ SPSS.

Ai đó có thể vui lòng giúp tôi hiểu "ma trận hệ số điểm thành phần" hoặc "ma trận hệ số điểm yếu tố" - mà tôi có thể tính toán hệ số hoặc điểm thành phần - được tính không? Làm thế nào để các phương pháp khác nhau của điểm yếu tố tính toán khác nhau trên ma trận này?


1
Một công thức được đưa ra ví dụ ở đây stats.stackexchange.com/a/92512/3277 .
ttnphns

@amoeba, nếu một người làm PCA, từ "điểm yếu tố" có nghĩa là "điểm thành phần", thì chúng tương đương nhau. Xem phần dưới của câu trả lời được liên kết ở trên - trong mô hình PCA, công thức thường được sử dụng nhất để tính điểm yếu tố trong FA tạo ra điểm thành phần chính xác (chuẩn hóa).
ttnphns

2
SPSS hiển thị cho bạn những ma trận của các hệ số và cũng tiết kiệm (tiêu chuẩn) điểm như biến mới, phụ thêm chúng vào tập dữ liệu của các biến ban đầu . OP - tôi nghĩ - đã chuẩn hóa và sau đó đa biến, . Và, thì đấy, đó là những gì SPSS đã thêm vào bộ dữ liệu! Vì vậy, câu hỏi của OP là Wow! theo sau "làm thế nào đã được tính toán?". X X X B BBXXXBB
ttnphns

@ttnphs bạn hiểu chính xác ý tôi là gì. Nhưng vấn đề của tôi là tôi đã giả sử rằng nếu tôi đang sử dụng XB để dự đoán yếu tố xã hội của từng quan sát thì B đáng lẽ phải tải yếu tố nhưng trong SPSS, đó là "ma trận hệ số điểm thành phần" chứ không phải là "tải yếu tố xoay" Tôi muốn hiểu mối quan hệ hoặc sự khác biệt giữa "tải nhân tố xoay" và "ma trận hệ số điểm thành phần".
Kartikeya Pandey

Vì tôi đã hiểu từ liên kết, tôi chỉ muốn chắc chắn một lần, nếu A được quay hệ số tải thì (Nghịch đảo (A)) 'là "ma trận hệ số điểm thành phần" cũng có thể được tính bằng cách sử dụng công thức A⋅diag. Nghịch đảo ((giá trị bản địa))
Kartikeya Pandey

Câu trả lời:


25

Phương pháp tính toán điểm yếu tố / thành phần

Sau một loạt ý kiến ​​cuối cùng tôi quyết định đưa ra câu trả lời (dựa trên các bình luận và hơn thế nữa). Đó là về điểm thành phần điện toán trong PCA và điểm yếu tố trong phân tích nhân tố.

Yếu tố / điểm thành phần được đưa ra bởi F = X B , nơi mà X là các biến phân tích ( trung nếu phân tích PCA / yếu tố được dựa trên hiệp phương sai hoặc z-chuẩn nếu nó được dựa trên mối tương quan). Bma trận hệ số / thành phần điểm (hoặc trọng số) . Làm thế nào những trọng lượng có thể được ước tính?F^=XBXB

Ký hiệu

-ma trận các tương quan (vật phẩm) biến hoặc hiệp phương sai, tùy theo yếu tố / PCA được phân tích.Rp x p

-ma trận của các yếu tố / thành phần tải . Đây có thể là các tải sau khi trích xuất (thường được ký hiệu là A ) trong đó các độ trễ là trực giao hoặc thực tế, hoặc các tải sau khi quay, trực giao hoặc xiên. Nếu xoay làxiên, nó phải làtảimẫu.Pp x mA

-ma trận tương quan giữa các yếu tố / thành phần sau khi xoay xiên (tải) của chúng. Nếu không có phép quay hoặc phép quay trực giao được thực hiện thì đây làma trậndanh tính.Cm x m

-ma trận giảm sao chép tương quan / hiệp phương sai,=PCP'(=PP'cho các giải pháp trực giao), nó chứa communalities trên đường chéo của nó.R^p x p=PCP= =PP'

-ma trận đường chéo của tính duy nhất (tính duy nhất + tính cộng đồng = yếu tố đường chéo của R ). Tôi đang sử dụng "2" làm chỉ mục ở đây thay vì siêu ký tự ( U 2 ) để thuận tiện cho việc đọc trong công thức.Bạn2p x pRBạn2

-ma trận đầy sao chép tương quan / hiệp phương sai, = R + U 2 .R*p x p= =R^+Bạn2

- giả của một số ma trận M ; nếu M là đầy đủ-rank, M + = ( M ' M ) - 1 M ' .M+MMM+= =(M'M)-1M'

- đối với một số ma trận đối xứng vuông M, nó tăng lên p o w e r số tiền để eigendecompose H K H = M , nâng giá trị riêng lênlũythừa và tính lại: M p o w e r = H K p o w e r H ' .MpowerMpowerHKH'= =MMpower= =HKpowerH'

Phương pháp thô của điểm yếu tố / thành phần tính toán

Cách tiếp cận phổ biến / truyền thống này, đôi khi được gọi là Cattell's, chỉ đơn giản là tính trung bình (hoặc tổng hợp) các giá trị của các mục được tải bởi cùng một yếu tố. Về mặt toán học, nó số tiền để thiết lập trọng lượng trong tính toán của điểm F = X B . Có ba phiên bản chính của cách tiếp cận: 1) Sử dụng tải trọng như hiện tại; 2) Dichotomize chúng (1 = tải, 0 = không tải); 3) Sử dụng tải trọng như chúng nhưng tải không bằng 0 nhỏ hơn một số ngưỡng.B= =PF^= =XB

Thông thường với cách tiếp cận này khi các mục nằm trên cùng một đơn vị tỷ lệ, các giá trị được sử dụng chỉ là thô; mặc dù không phá vỡ logic của bao thanh toán, người ta sẽ sử dụng X tốt hơn khi nó nhập vào bao thanh toán - chuẩn hóa (= phân tích tương quan) hoặc tập trung (= phân tích hiệp phương sai).XX

Nhược điểm chính của phương pháp tính toán điểm yếu tố / thành phần thô theo quan điểm của tôi là nó không tính đến mối tương quan giữa các mục được tải. Nếu các vật phẩm được tải bởi một yếu tố tương quan chặt chẽ và một yếu tố được tải mạnh hơn thì yếu tố kia có thể được coi là một bản sao trẻ hơn và trọng lượng của nó có thể giảm đi. Phương pháp tinh chế làm điều đó, nhưng phương pháp thô không thể.

Điểm số thô tất nhiên là dễ tính toán vì không cần đảo ngược ma trận. Ưu điểm của phương pháp thô (giải thích tại sao nó vẫn được sử dụng rộng rãi mặc dù có sẵn máy tính) là nó cho điểm ổn định hơn từ mẫu này đến mẫu khác khi lấy mẫu không lý tưởng (theo nghĩa đại diện và kích thước) hoặc các mục cho phân tích không được lựa chọn tốt. Để trích dẫn một bài báo, "Phương pháp tổng điểm có thể được mong muốn nhất khi các thang đo được sử dụng để thu thập dữ liệu gốc không được kiểm tra và thăm dò, với rất ít hoặc không có bằng chứng về độ tin cậy hoặc tính hợp lệ". Ngoài ra , nó không đòi hỏi phải hiểu "yếu tố" nhất thiết phải là yếu tố tiềm ẩn đơn biến, như mô hình phân tích nhân tố đòi hỏi nó ( xem , xem). Ví dụ, bạn có thể khái niệm hóa một yếu tố như một tập hợp các hiện tượng - sau đó để tổng hợp các giá trị vật phẩm là hợp lý.

Phương pháp tinh chỉnh điểm yếu tố / thành phần tính toán

Những phương pháp này là những gì các gói phân tích nhân tố làm. Họ ước tính bằng nhiều phương pháp khác nhau. Trong khi tải A hoặc P là các hệ số của tổ hợp tuyến tính để dự đoán các biến theo các yếu tố / thành phần, B là các hệ số để tính điểm yếu tố / thành phần trong số các biến.BMộtPB

Điểm số được tính toán thông qua được chia tỷ lệ: chúng có phương sai bằng hoặc gần bằng 1 (được chuẩn hóa hoặc gần chuẩn hóa) - không phải là phương sai của yếu tố thực (bằng tổng tải trọng cấu trúc bình phương, xem chú thích 3 ở đây ). Vì vậy, khi bạn cần cung cấp điểm yếu tố với phương sai của yếu tố thực, hãy nhân số điểm (đã chuẩn hóa chúng thành tiêu chuẩn 1) với căn bậc hai của phương sai đó.B

Bạn có thể giữ gìn từ việc phân tích thực hiện, để có thể tính toán điểm cho các quan sát đến mới của X . Ngoài ra, B có thể được sử dụng để cân các mục tạo thành thang đo của bảng câu hỏi khi thang đo được phát triển từ hoặc xác nhận bằng phân tích nhân tố. (Bình phương) hệ số của B có thể được hiểu là sự đóng góp của các mục cho các yếu tố. Coefficints có thể được chuẩn hóa như hệ số hồi quy được chuẩn hóa β = b σ i t đ mBXBB (nơiσfmộtctor=1) để so sánh đóng góp của các mục có chênh lệch khác nhau.β= =bσtôitemσfmộtctorσfmộtctor= =1

Xem một ví dụ cho thấy các tính toán được thực hiện trong PCA và FA, bao gồm cả việc tính toán điểm số khỏi ma trận hệ số điểm.

Giải thích hình học của tải trọng 's (như tọa độ vuông góc) và hệ số điểm b ' s (tọa độ nghiêng) trong cài đặt PCA được trình bày về hai hình ảnh đầu tiên ở đây .mộtb

Bây giờ đến các phương pháp tinh chế.

Các phương pháp

Tính toán của trong PCAB

Khi tải trọng thành phần được trích xuất nhưng không được quay, , trong đó L là ma trận đường chéo bao gồm các giá trị riêng; công thức này chỉ đơn giản là chia mỗi cột của A cho giá trị riêng tương ứng - phương sai của thành phần.B= =MộtL-1LmMột

Một cách tương đương, . Công thức này cũng áp dụng cho các thành phần (tải) được xoay, trực giao (như varimax) hoặc xiên.B= =(P+)'

Một số phương pháp được sử dụng trong phân tích nhân tố (xem bên dưới), nếu được áp dụng trong PCA sẽ trả lại kết quả tương tự.

Điểm thành phần được tính toán có phương sai 1 và chúng là giá trị chuẩn của các thành phần .

Cái gì trong phân tích dữ liệu thống kê được gọi là ma trận hệ số thành phần chính , và nếu nó được tính từ ma trận tải hoàn chỉnh và dù sao đi nữa, thì trong tài liệu học máy thường được dán nhãn là ma trận làm trắng (dựa trên PCA) và các thành phần chính được chuẩn hóa được công nhận là dữ liệu "làm trắng".Bp x p

Tính toán của trong phân tích nhân tố chungB

Không giống như các điểm thành phần, yếu tố điểmkhông bao giờ chính xác ; chúng chỉ là xấp xỉ với các giá trị thực chưa biết của các yếu tố. Điều này là do chúng ta không biết các giá trị của tính cộng đồng hoặc tính duy nhất ở cấp độ trường hợp, - vì các yếu tố, không giống như các thành phần, là các biến bên ngoài tách biệt với các biểu hiện và có phân phối riêng, không xác định. Đó là nguyên nhân của yếu tố điểm số không xác định . Lưu ý rằng vấn đề không xác định là độc lập về mặt logic đối với chất lượng của giải pháp nhân tố: bao nhiêu yếu tố là đúng (tương ứng với những gì tạo ra dữ liệu trong dân số) là một vấn đề khác so với số điểm của người trả lời là đúng (ước tính chính xác của yếu tố trích xuất).F

Vì điểm yếu tố là xấp xỉ, nên các phương pháp thay thế để tính toán chúng tồn tại và cạnh tranh.

Phương pháp ước tính điểm của hệ số hồi quy hoặc của Thurstone hoặc của Thurstone được đưa ra bởi , trong đó S = P C là ma trận tải trọng cấu trúc (đối với các giải pháp nhân tố trực giao, chúng ta biết A = P = S ). Nền tảng của phương pháp hồi quy là trong chú thích 1 .B= =R-1PC= =R-1SS= =PCMột= =P= =S1

Chú thích. Công thức này cho cũng có thể sử dụng được với PCA: nó sẽ cho, trong PCA, kết quả tương tự như các công thức được trích dẫn trong phần trước.B

Trong FA (không phải PCA), điểm yếu tố được tính toán hồi quy sẽ xuất hiện không hoàn toàn "chuẩn hóa" - sẽ có phương sai không phải 1, nhưng bằng với hồi quy các điểm số này bằng các biến. Giá trị này có thể được hiểu là mức độ xác định của một yếu tố (giá trị không xác định thực sự của nó) theo các biến - bình phương R dự đoán của yếu tố thực theo chúng và phương pháp hồi quy tối đa hóa nó, - "tính hợp lệ" của tính toán điểm số. Hình2cho thấy hình học. (Xin lưu ý rằngSS r e g rSSregr(n-1)2 sẽ bằng phương sai của điểm số đối với bất kỳ phương pháp tinh chế nào, nhưng chỉ đối với phương pháp hồi quy, đại lượng sẽ bằng tỷ lệ xác định f thực. các giá trị bởi f. điểm số.)SSregr(n-1)

Là một biến thể của phương pháp hồi quy, người ta có thể sử dụng thay cho R trong công thức. Nó được bảo hành với lý do trong một phân tích yếu tố tốt RR * là rất giống nhau. Tuy nhiên, khi họ không, đặc biệt là khi số lượng các yếu tố ít hơn số lượng dân số thực, phương pháp tạo ra sự thiên vị mạnh mẽ trong điểm số. Và bạn không nên sử dụng phương pháp "hồi quy R tái tạo" này với PCA.R*RRR*m

Phương pháp của PCA , còn được gọi là phương pháp biến Horst (Mulaik) hoặc lý tưởng (bị đóng băng) (Harman). Đây là phương pháp hồi quy với R ở vị trí của R trong công thức của nó. Nó có thể dễ dàng chỉ ra rằng công thức sau đó giảm xuống còn B = ( P + ) ' (và do đó có, chúng tôi thực sự không cần phải biết C với nó). Điểm yếu tố được tính toán như thể chúng là điểm thành phần.R^RB= =(P+)'C

[Label "lý tưởng hóa biến" xuất phát từ thực tế là kể từ khi theo yếu tố hoặc một thành phần mô hình phần dự đoán của các biến là X = F P ' , nó sau F = ( P + ) ' X , nhưng chúng tôi thay thế X cho biết (lý tưởng) X , để ước tính F như điểm F ; do đó chúng tôi "lý tưởng hóa" X. ]X^= =FP'F= =(P+)'X^XX^FF^X

Xin lưu ý rằng phương pháp này không vượt qua điểm thành phần PCA đối với điểm yếu tố, bởi vì tải được sử dụng không phải là tải của PCA mà là phân tích nhân tố '; chỉ có cách tiếp cận tính toán cho điểm số mà trong PCA.

Phương pháp của Bartlett . Ở đây, . Phương pháp này tìm cách giảm thiểu, cho mọi người trả lời, thay đổi các yếu tố duy nhất ("lỗi"). Phương sai của điểm yếu tố chung kết quả sẽ không bằng nhau và có thể vượt quá 1.B'= =(P'Bạn2-1P)-1P'Bạn2-1p

Phương pháp Anderson-Rubin được phát triển như là một sửa đổi của trước đó. . Phương sai của điểm số sẽ chính xác 1. Tuy nhiên, phương pháp này chỉ dành cho các giải pháp nhân tố trực giao (đối với các giải pháp xiên, nó sẽ mang lại điểm số trực giao).B'= =(P'Bạn2-1RBạn2-1P)-1/2P'Bạn2-1

Phương pháp McDonald-Anderson-Rubin . McDonald đã mở rộng Anderson-Rubin cho các giải pháp nhân tố xiên. Vì vậy, cái này là tổng quát hơn. Với các yếu tố trực giao, nó thực sự giảm xuống Anderson-Rubin. Một số gói có thể sử dụng phương pháp của McDonalds trong khi gọi nó là "Anderson-Rubin". Công thức là: , nơi GH thu được trong svd ( R 1 / 2 U - 1 2 P C 1 / 2 )B= =R-1/2GH'C1/2GH . (Tất nhiên chỉ sử dụngcác cộtđầu tiêntrong G ).)svd(R1/2Bạn2-1PC1/2)= =GΔH'mG

Phương pháp của Green . Sử dụng công thức tương tự như McDonald-Anderson-Rubin, nhưng H được tính như sau: svd ( R - 1 / 2 P C 3 / 2 ) = G Δ H ' . (Tất nhiên chỉ sử dụng các cột đầu tiên trong G ). Phương pháp của Green không sử dụng thông tin giao tiếp (hoặc tính duy nhất). Nó tiếp cận và hội tụ theo phương pháp McDonald-Anderson-Rubin khi các cộng đồng thực tế của các biến trở nên ngày càng bình đẳng. Và nếu được áp dụng cho việc tải PCA, Green trả về điểm thành phần, như phương pháp của PCA gốc.GHsvd(R-1/2PC3/2)= =GΔH'mG

Phương pháp Krijnen et al . Phương pháp này là một khái quát hóa phù hợp với cả hai trước đó bằng một công thức duy nhất. Nó có thể không thêm bất kỳ tính năng mới hoặc quan trọng nào, vì vậy tôi không xem xét nó.

So sánh giữa các phương pháp tinh chế .

  • Phương pháp hồi quy tối đa hóa mối tương quan giữa điểm yếu tố và giá trị thực không xác định của yếu tố đó (nghĩa là tối đa hóa hiệu lực thống kê ), nhưng điểm số có phần sai lệch và chúng có mối tương quan không chính xác giữa các yếu tố (ví dụ, chúng tương quan ngay cả khi các yếu tố trong giải pháp là trực giao). Đây là những ước lượng bình phương nhỏ nhất.

  • Phương pháp của PCA cũng là bình phương nhỏ nhất, nhưng có giá trị thống kê ít hơn. Họ nhanh hơn để tính toán; ngày nay chúng không được sử dụng trong phân tích nhân tố, do máy tính. (Trong PCA , phương pháp này là bản địa và tối ưu.)

  • Điểm của Bartlett là ước tính không thiên vị của các giá trị yếu tố thực. Điểm số được tính toán để tương quan chính xác với các giá trị thực, chưa biết của các yếu tố khác (ví dụ: không tương quan với chúng trong giải pháp trực giao chẳng hạn). Tuy nhiên, chúng vẫn có thể tương quan không chính xác với điểm yếu tố được tính cho các yếu tố khác. Đây là các khả năng tối đa (theo ước lượng đa biến của giả định ).X

  • Điểm số của Anderson-Rubin / McDonald-Anderson-RubinGreen được gọi là bảo toàn tương quan vì được tính toán để tương quan chính xác với điểm yếu tố của các yếu tố khác. Mối tương quan giữa các điểm yếu tố bằng với mối tương quan giữa các yếu tố trong giải pháp (ví dụ, trong giải pháp trực giao, ví dụ, điểm số sẽ hoàn toàn không tương quan). Nhưng điểm số có phần sai lệch và hiệu lực của chúng có thể khiêm tốn.

Kiểm tra bảng này, quá:

nhập mô tả hình ảnh ở đây

[Một lưu ý cho người dùng SPSS: Nếu bạn đang thực hiện PCA (phương pháp trích xuất "thành phần chính") nhưng điểm yếu tố yêu cầu khác với phương pháp "Hồi quy", chương trình sẽ bỏ qua yêu cầu và thay vào đó sẽ tính toán điểm "Hồi quy" của bạn điểm thành phần).]

Tài liệu tham khảo

  1. Grice, James W. Tính toán và đánh giá các điểm yếu tố // Phương pháp tâm lý 2001, Tập. 6, số 4, 430-450.

  2. DiStefano, Christine và cộng sự. Hiểu và sử dụng Điểm yếu tố // Đánh giá thực tế, Nghiên cứu & Đánh giá, Tập 14, Số 20

  3. mười Berge, Jos MFet al. Một số kết quả mới về các yếu tố bảo tồn tương quan sẽ ghi điểm các phương pháp dự đoán // Đại số tuyến tính và các ứng dụng của nó 289 (1999) 311-318.

  4. Mulaik, Stanley A. Cơ sở phân tích nhân tố, tái bản lần 2, 2009

  5. Harman, Harry H. Phân tích nhân tố hiện đại, tái bản lần thứ 3, 1976

  6. Neudecker, Heinz. Trên dự đoán bảo toàn hiệp phương sai không thiên vị tốt nhất về điểm yếu tố // SORT 28 (1) Tháng 1-Tháng 6 năm 2004, 27-36


1F= =b1X1+b2X2S1S2F

S1= =b1r11+b2r12

S2= =b1r12+b2r22

rXS= =RbFbrS


2

nhập mô tả hình ảnh ở đây


3
Câu trả lời hay, nâng cao! Chỉ muốn nói với bạn rằng tôi ấn tượng bởi kiến ​​thức về thống kê, nói chung và phân tích nhân tố, nói riêng. Sẽ vui mừng khi kết nối với bạn trên LinkedIn và các mạng xã hội khác. Nhân tiện, FYI: liên kết đến trang web của công ty bạn trong hồ sơ của bạn bị hỏng.
Alexanderr Blekh 7/12/14

XFMộtFR-1Một

(tôi+MộtBạn-2Một)-1MộtBạn-2tôi

@amoeba, tôi đã thêm một chút thông tin vào câu trả lời, liên quan đến bình luận đầu tiên của bạn. Đối với bình luận thứ hai của bạn - xin lỗi, tôi nghĩ rằng tôi không thể trả lời nó mà không tự đào sâu vào sách. Nếu bạn tìm thấy câu trả lời cho mình, xin vui lòng làm sáng tỏ nó cho khán giả. :-)
ttnphns

1
Cập nhật tuyệt vời @ttnphns, công việc tuyệt vời. Tôi nhận thấy rằng chủ đề này đã được xem 13k lần, nó phải xếp hạng cao trong một số tìm kiếm google phổ biến.
amip nói rằng Phục hồi Monica

-2

Để thực hiện PCA trong ngành khí tượng học, các hệ số tương quan thu được bằng cách sử dụng hệ số tương quan Pearson (nếu các biến ở các đơn vị khác nhau, vì nó cho phép chuẩn hóa dữ liệu để có thể so sánh trực tiếp mà không có bất kỳ sự khác biệt nào do chênh lệch kích thước / cường độ giữa các dữ liệu, do đó, các hệ số tương quan chỉ có thể so sánh mức độ chênh lệch xung quanh giá trị trung bình, đối với từng tập dữ liệu và giữa mỗi tập dữ liệu. Nếu không, nếu tất cả các dữ liệu được đo bằng cùng một đơn vị thì có thể sử dụng phương pháp hiệp phương sai. SPSS làm cho nó dễ dàng.


1
Điều này là hoàn toàn không thể hiểu được - theo cách nào thì câu trả lời liên quan đến câu hỏi (tức là tính toán điểm thành phần / yếu tố)?
ttnphns

Yn×p= =Ep×pTZp×n
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.