Về việc sử dụng xoay xiên sau PCA


9

Một số gói thống kê, chẳng hạn như SAS, SPSS và R, cho phép bạn thực hiện một số loại yếu tố xoay vòng sau PCA.

  1. Tại sao một vòng quay cần thiết sau PCA?
  2. Tại sao bạn lại áp dụng một vòng xoay xiên sau khi PCA cho rằng mục đích của PCA là tạo ra các kích thước trực giao?

Tôi đã hỏi một câu hỏi minh họa sự cần thiết của việc xoay vòng nhân tố sau PCA vì PCA cho kết quả sai lệch. Xem số liệu thống kê.stackexchange.com/questions / 6575 / Mạnh
mbaitoff

Câu trả lời:


8

Tôi nghĩ rằng có nhiều ý kiến ​​hoặc quan điểm khác nhau về PCA, nhưng về cơ bản chúng tôi thường nghĩ đó là một kỹ thuật giảm (bạn giảm không gian tính năng của mình xuống nhỏ hơn, thường "dễ đọc" hơn nhiều, cung cấp cho bạn sự quan tâm đúng mức / chuẩn hóa dữ liệu khi cần thiết) hoặc cách xây dựng các yếu tố tiềm ẩnhoặc kích thước chiếm một phần đáng kể của sự phân tán giữa các cá nhân (ở đây, "cá nhân" là viết tắt của các đơn vị thống kê mà dữ liệu được thu thập; đây có thể là quốc gia, con người, v.v.). Trong cả hai trường hợp, chúng tôi xây dựng các tổ hợp tuyến tính của các biến ban đầu chiếm tối đa phương sai (khi được chiếu trên trục chính), chịu sự ràng buộc về tính trực giao giữa hai thành phần chính bất kỳ. Bây giờ, những gì đã được mô tả hoàn toàn là thuật toán hoặc toán học và chúng tôi không nghĩ đó là mô hình (tạo), trái với những gì được thực hiện trong truyền thống phân tích nhân tố trong đó chúng tôi bao gồm một thuật ngữ lỗi để giải thích cho một loại lỗi đo lường nào đó . Tôi cũng thích phần giới thiệu được đưa ra bởi William Revelle trong cuốn cẩm nang sắp tới của ông về tâm lý học ứng dụng sử dụng R (Chương 6), nếu chúng ta muốn phân tích cấu trúc của ma trận tương quan, thì

[Cách tiếp cận, PCA] đầu tiên là một mô hình xấp xỉ ma trận tương quan theo sản phẩm của các thành phần trong đó mỗi thành phần là tổng tuyến tính trọng số của các biến, mô hình thứ hai [phân tích nhân tố] cũng là một xấp xỉ của ma trận tương quan sản phẩm của hai yếu tố, nhưng các yếu tố trong điều này được coi là nguyên nhân chứ không phải là hậu quả của các biến.

Nói cách khác, với PCA, bạn biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến trong khi trong FA đây là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố. Chúng tôi cũng thừa nhận rằng cả hai phương pháp thường sẽ mang lại kết quả khá giống nhau (xem ví dụ: Harman, 1976 hoặc Catell, 1978), đặc biệt trong trường hợp "lý tưởng" khi chúng tôi có số lượng lớn các cá nhân và hệ số tỷ lệ tốt: các biến số (thường thay đổi từ 2 đến 10 tùy thuộc vào các tác giả mà bạn xem xét!). Điều này là do, bằng cách ước tính các đường chéo trong ma trận tương quan (như được thực hiện trong FA và các phần tử này được gọi là cộng đồng), phương sai lỗi được loại bỏ khỏi ma trận yếu tố. Đây là lý do tại sao PCA thường được sử dụng như một cách để khám phá các yếu tố tiềm ẩn hoặc các cấu trúc tâm lý thay cho FA được phát triển trong thế kỷ trước. Nhưng, khi chúng ta đi trên con đường này, chúng ta thường muốn đạt được một cách giải thích dễ dàng hơn về cấu trúc nhân tố kết quả (hay còn gọi là ma trận mẫu). Và sau đó là mẹo hữu ích để xoay trục giai thừa để chúng ta tối đa hóa tải các biến trên yếu tố cụ thể hoặc tương đương đạt đến một "cấu trúc đơn giản". Sử dụng phép quay trực giao (ví dụ VARIMAX), chúng tôi duy trì tính độc lập của các yếu tố. Với xoay xiên (ví dụ OBLIMIN, Promax), chúng tôi phá vỡ nó và các yếu tố được phép tương quan. Điều này đã được tranh luận chủ yếu trong các tài liệu, và đã dẫn dắt một số tác giả (không phải nhà tâm lý học, mà là nhà thống kê vào đầu năm 1960 '

Nhưng vấn đề là các phương pháp xoay vòng ban đầu được phát triển trong bối cảnh của phương pháp FA và hiện được sử dụng thường xuyên với PCA. Tôi không nghĩ điều này mâu thuẫn với tính toán thuật toán của các thành phần chính: Bạn có thể xoay trục giai thừa theo cách bạn muốn, miễn là bạn nhớ rằng một khi tương quan (bằng cách xoay xiên) thì việc giải thích không gian giai thừa trở nên ít rõ ràng hơn.

PCA được sử dụng thường xuyên khi phát triển bảng câu hỏi mới, mặc dù FA có lẽ là cách tiếp cận tốt hơn trong trường hợp này vì chúng tôi đang cố gắng rút ra các yếu tố có ý nghĩa có tính đến các lỗi đo lường và có thể tự nghiên cứu các mối quan hệ của họ (ví dụ: ma trận, chúng ta có được một mô hình nhân tố bậc hai). Nhưng PCA cũng được sử dụng để kiểm tra cấu trúc giai thừa của những cái đã được xác nhận. Các nhà nghiên cứu không thực sự quan trọng về FA so với PCA khi họ có, nói rằng 500 đối tượng đại diện được yêu cầu đánh giá một bộ câu hỏi gồm 60 câu hỏi giải quyết năm lần (đây là trường hợp của NEO-FFI, ví dụ) và tôi nghĩ họ đúng vì trong trường hợp này, chúng tôi không quan tâm lắm đến việc xác định mô hình tạo hoặc khái niệm (thuật ngữ "đại diện" được sử dụng ở đây để giảm bớt vấn đề bất biến đo lường ).

Bây giờ, về sự lựa chọn phương pháp xoay vòng và lý do tại sao một số tác giả lập luận chống lại việc sử dụng nghiêm ngặt phép quay trực giao, tôi muốn trích dẫn Paul Kline, như tôi đã làm khi trả lời câu hỏi sau, FA: Chọn ma trận Xoay, dựa trên Cấu trúc đơn giản Tiêu chí ,

(...) Trong thế giới thực, không có lý khi nghĩ rằng các yếu tố, với tư cách là yếu tố quyết định quan trọng của hành vi, sẽ tương quan với nhau. - P. Kline, Thông minh. Quan điểm tâm lý học , 1991, tr. 19

Do đó, tôi sẽ kết luận rằng, tùy thuộc vào mục tiêu nghiên cứu của bạn (bạn có muốn làm nổi bật các mẫu chính của ma trận tương quan của mình hay bạn tìm cách đưa ra một diễn giải hợp lý về các cơ chế cơ bản có thể khiến bạn quan sát ma trận tương quan như vậy ), bạn có thể chọn phương thức phù hợp nhất: Điều này không liên quan đến việc xây dựng các kết hợp tuyến tính, mà chỉ dựa trên cách bạn muốn diễn giải không gian giai đoạn kết quả.

Người giới thiệu

  1. Harman, HH (1976). Phân tích nhân tố hiện đại . Chicago, Nhà in Đại học Chicago.
  2. Cattell, RB (1978). Sử dụng khoa học của phân tích nhân tố . New York, Hội nghị Trung ương.
  3. Kline, P. (1991). Sự thông minh. Quan điểm tâm lý . Định tuyến.

4

Vấn đề với kích thước trực giao là các thành phần có thể không thể giải thích được. Do đó, trong khi xoay xiên (nghĩa là kích thước không chính thống) về mặt kỹ thuật ít thỏa mãn một vòng quay như vậy đôi khi làm tăng tính giải nghĩa của các thành phần kết quả.


4

Điểm cơ bản

  • Xoay có thể làm cho việc giải thích các thành phần rõ ràng hơn
  • Xoay xiên thường có ý nghĩa lý thuyết hơn. Tức là, các biến quan sát có thể được giải thích dưới dạng số lượng nhỏ hơn các thành phần tương quan.

Thí dụ

  • 10 bài kiểm tra tất cả khả năng đo với một số đo bằng lời nói và một số đo khả năng không gian. Tất cả các bài kiểm tra đều được liên kết với nhau, nhưng sự tương quan trong lời nói hoặc trong các bài kiểm tra không gian lớn hơn so với các loại kiểm tra. Một PCA tuyệt vời có thể liên quan đến hai thành phần tương quan, một lời nói và một không gian. Lý thuyết và nghiên cứu cho thấy hai khả năng này có mối tương quan với nhau. Do đó, một vòng xoay xiên có ý nghĩa lý thuyết.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.