Các giả định của phân tích nhân tố là gì?


11

Tôi muốn kiểm tra xem tôi có thực sự hiểu phân tích nhân tố [cổ điển, tuyến tính] (FA) hay không, đặc biệt là các giả định được đưa ra trước (và có thể sau) FA.

Một số dữ liệu nên được tương quan ban đầu và có một mối quan hệ tuyến tính có thể có giữa chúng. Sau khi thực hiện phân tích nhân tố, dữ liệu được phân phối bình thường (phân phối bivariate cho từng cặp) và không có mối tương quan giữa các yếu tố (chung và cụ thể) và không có mối tương quan giữa các biến từ một yếu tố và biến từ các yếu tố khác.

Nó có đúng không?

Câu trả lời:


12

Các giả định dữ liệu đầu vào của FA tuyến tính (Tôi không nói ở đây về các giả định / tính chất bên trong của mô hình FA hoặc về việc kiểm tra chất lượng phù hợp của kết quả ).

  1. Các biến đầu vào tỷ lệ (khoảng hoặc tỷ lệ) . Điều đó có nghĩa là các mặt hàng là các biện pháp liên tục hoặc được khái niệm hóa là liên tục trong khi được đo trên thang định lượng riêng biệt. Không có dữ liệu thứ tự trong FA tuyến tính ( đọc ). Dữ liệu nhị phân cũng nên tránh (xem cái này , cái này ). FA tuyến tính giả định rằng các yếu tố phổ biến và duy nhất tiềm ẩn là liên tục . Do đó, các biến quan sát mà chúng tải cũng phải liên tục.
  2. Tương quan là tuyến tính . FA tuyến tính có thể được thực hiện dựa trên bất kỳ ma trận kết hợp loại SSCP nào : Tương quan Pearson, hiệp phương sai, cosine, v.v. (mặc dù một số phương pháp / cách triển khai có thể chỉ giới hạn trong tương quan Pearson). Lưu ý rằng đây là tất cả các sản phẩm đại số tuyến tính. Mặc dù cường độ của hệ số hiệp phương sai không chỉ phản ánh tuyến tính trong quan hệ, mô hình hóa trong FA tuyến tính có tính chất tuyến tính ngay cả khi sử dụng hiệp phương sai: các biến là tổ hợp tuyến tính của các yếu tốvà do đó tuyến tính được ngụ ý trong các hiệp hội kết quả. Nếu bạn thấy / nghĩ rằng các liên kết phi tuyến chiếm ưu thế - không thực hiện FA tuyến tính hoặc cố gắng tuyến tính hóa chúng trước bằng một số biến đổi của dữ liệu. Và đừng căn cứ FA tuyến tính vào tương quan Spearman hoặc Kendall (Pt 4 ở đó ).
  3. Không có ngoại lệ - đó là như với bất kỳ phương pháp nonrobust nào. Tương quan Pearson và các hiệp hội loại SSCP tương tự rất nhạy cảm với các ngoại lệ, vì vậy hãy coi chừng.
  4. Tương quan cao tương đối có mặt . FA là phân tích tương quan, - công dụng của nó là gì khi tất cả hoặc gần như tất cả các mối tương quan đều yếu? - không sử dụng. Tuy nhiên, "tương quan cao hợp lý" là gì phụ thuộc vào lĩnh vực nghiên cứu. Ngoài ra còn có một câu hỏi thú vị và đa dạng cho dù rất cao mối tương quan nên được chấp nhận (ảnh hưởng của chúng trên PCA, ví dụ, sẽ được thảo luận ở đây ). Để kiểm tra thống kê nếu dữ liệu không được kiểm tra tính toàn cầu của Bartlett có thể được sử dụng.
  5. Tương quan một phần là yếu, và yếu tố có thể được xác định đủ . FA giả định rằng các yếu tố chung chung hơn là chỉ tải các cặp vật phẩm tương quan. Trên thực tế, thậm chí còn có một lời khuyên không nên trích xuất các yếu tố đang tải xuống dưới 3 mục trong FA khám phá; và trong FA xác nhận chỉ có 3+ cấu trúc được xác định đảm bảo . Một vấn đề kỹ thuật khai thác được gọi là trường hợp Heywood, là một trong những lý do đằng sau, tình trạng quá ít mặt hàng. Ước tính "đo lường mức độ phù hợp lấy mẫu" của Kaiser-Meyer-Olkin ( KMO ) cho bạn mức độ yếu tương quan một phần trong dữ liệu so với tương quan đầy đủ; nó có thể được tính toán cho mọi mục và cho toàn bộ ma trận tương quan.
  6. Không có đa hình . Mô hình FA giả định rằng tất cả các mục mỗi yếu tố đều có yếu tố duy nhất và các yếu tố đó là trực giao. Do đó, 2 mục phải xác định một mặt phẳng, 3 mục - một không gian 3d, v.v .: pcác vectơ tương quan phải trải rộng không gian p-dim để chứa các thành phần duy nhất vuông góc của chúng. Vì vậy, không có điểm kỳ dị vì lý do lý thuyết (và do đó tự động , không cần nói; và tốt hơn ). Không phải là đa cộng đồng hoàn toàn được cho phép mặc dù; tuy nhiên, nó có thể gây ra các vấn đề tính toán trong hầu hết các thuật toán FA ( xem thêm).1n observations > p variablesn>>p
  7. Phân phối . Nói chung, FA tuyến tính không yêu cầu tính chuẩn của dữ liệu đầu vào. Phân phối sai lệch vừa phải được chấp nhận. Bimodality không phải là một chỉ định. Bình thường thực sự được giả định cho các yếu tố duy nhất trong mô hình (chúng phục vụ như các lỗi hồi quy) - nhưng không phải cho các yếu tố chung và dữ liệu đầu vào ( xem thêm). Tuy nhiên, tính quy phạm đa biến của dữ liệu có thể được yêu cầu như giả định bổ sung bằng một số phương pháp trích xuất (cụ thể là khả năng tối đa) và bằng cách thực hiện một số thử nghiệm tiệm cận.

1 phương pháp FAS / minres của FA có thể hoạt động với ma trận tương quan số ít và thậm chí không psd, nhưng về mặt lý thuyết, việc phân tích như vậy là không rõ ràng đối với tôi.


, bạn có thể đọc bài viết này , nó có vẻ hơi khác nhau.
WhiteGirl

Nếu Binary data should also be avoided, phương pháp phân tích nhân tố khác chúng ta có thể làm gì binary data?
kittygirl

ttnphns thân yêu; Tôi lưu ý rằng bạn không đề cập rằng dữ liệu được giả định là bình thường và trực tuyến khác cho thấy rằng không bắt buộc phải có tính quy tắc. Truy vấn của tôi là nếu các biến tiềm ẩn được giả định là bình thường và các quan sát được mô hình hóa dưới dạng tổng của các yếu tố thì điều này có nghĩa là phân phối bình thường trên các quan sát không? (Tôi xin lỗi tôi chắc chắn đây là một câu hỏi ngớ ngẩn)
user2957945

@ user2957945, Đoạn 7 nói về tính quy tắc. Giả định quy phạm là cần thiết cho một số phương pháp trích xuất nhân tố và để thực hiện một số thử nghiệm thống kê theo phương pháp phân tích nhân tố đi kèm. Đối với câu hỏi của bạn: Có, nếu các yếu tố được phân phối bình thường và lỗi cũng bình thường, điều đó có nghĩa là các biến số của bảng kê khai cũng bình thường.
ttnphns

à, cảm ơn @ttnphns; xin lỗi đã làm phiền bạn - tôi hoàn toàn không biết làm thế nào tôi có thể bỏ lỡ điều đó. Đánh giá cao sự giúp đỡ của bạn.
dùng2957945

9

Phần lớn thời gian, phân tích nhân tố được tiến hành mà không có bất kỳ kiểm tra thống kê nào. Nó chủ quan và diễn giải hơn nhiều so với các phương pháp như hồi quy, mô hình phương trình cấu trúc, v.v. Và nói chung, đó là các thử nghiệm suy luận đi kèm với các giả định: để các giá trị p và khoảng tin cậy là chính xác, các giả định đó phải được đáp ứng.

Bây giờ, nếu phương pháp chọn số lượng yếu tố được đặt là phương pháp khả năng tối đa, thì có một giả định đi kèm với điều này: rằng các biến đầu vào trong phân tích nhân tố sẽ có phân phối bình thường.

Các biến đầu vào sẽ có tương quan khác không là một giả định trong đó nếu không đúng, kết quả phân tích nhân tố sẽ là vô ích: không có yếu tố nào xuất hiện khi biến tiềm ẩn đằng sau một số biến đầu vào.

Theo như "không có mối tương quan giữa các yếu tố (chung và cụ thể) và không có mối tương quan giữa các biến từ một yếu tố này và các biến số từ các yếu tố khác", thì đây không phải là những giả định phổ biến mà các nhà phân tích nhân tố đưa ra, mặc dù đôi khi là điều kiện (hoặc gần đúng của nó) có thể là mong muốn. Cái sau, khi nó giữ, nó được gọi là "cấu trúc đơn giản."

Có một điều kiện khác đôi khi được coi là "giả định": đó là mối tương quan không có thứ tự (vanilla) giữa các biến đầu vào không bị thay đổi bởi các tương quan một phần lớn. Điều này có nghĩa là một cách ngắn gọn là các mối quan hệ nên mạnh mẽ đối với một số cặp và yếu đối với những người khác; nếu không, kết quả sẽ là "bùn." Điều này có liên quan đến tính mong muốn của cấu trúc đơn giản và nó thực sự có thể được đánh giá (mặc dù không chính thức được "thử nghiệm") bằng cách sử dụng thống kê Kaiser-Meyer-Olkin, hoặc KMO. Các giá trị KMO gần .8 hoặc .9 thường được coi là rất hứa hẹn cho kết quả phân tích nhân tố thông tin, trong khi các KMO gần .5 hoặc .6 ít hứa hẹn hơn và những người dưới đây .5 có thể khiến nhà phân tích suy nghĩ lại về chiến lược của mình.


Khi tôi đọc, phân tích nhân tố đó bắt đầu bằng một số tương quan với các biến và chúng tôi cố gắng làm cho mối tương quan này ngày càng rõ ràng hơn
Sihem

1
Sau khi áp dụng phân tích nhân tố, nếu chúng tôi đã sử dụng phép quay trực giao, chúng tôi sẽ chắc chắn rằng không có mối tương quan giữa các yếu tố
Sihem

2

Các giả định cơ bản phân tích nhân tố khám phá là:
• Mức đo lường hoặc tỷ lệ đo lường
• Lấy mẫu ngẫu nhiên
• Mối quan hệ giữa các biến quan sát là tuyến tính
• Phân phối chuẩn (mỗi biến quan sát)
• Phân phối chuẩn hai biến (mỗi cặp biến quan sát)
• Định mức đa biến
Trên các tập tin SAS

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.