Cỡ mẫu tối thiểu cho PCA hoặc FA khi mục tiêu chính là chỉ ước tính vài thành phần?


27

Nếu tôi có một tập dữ liệu với quan sát và biến (kích thước) và nói chung nhỏ ( ) và có thể dao động từ nhỏ ( ) đến có lẽ lớn hơn nhiều ( ).npnn=1216pp=410p=3050

Tôi nhớ rằng học nên lớn hơn để chạy phân tích thành phần chính (PCA) hoặc phân tích nhân tố (FA), nhưng có vẻ như điều này có thể không như vậy trong dữ liệu của tôi. Lưu ý rằng đối với mục đích của tôi, tôi hiếm khi quan tâm đến bất kỳ thành phần chính nào trước PC2.np

Câu hỏi:

  1. Các quy tắc ngón tay cái cho kích thước mẫu tối thiểu khi PCA là OK để sử dụng, và khi nào thì không?
  2. Có bao giờ OK để sử dụng một vài PC đầu tiên ngay cả khi hoặc ?n < pn=pn<p
  3. Có bất kỳ tài liệu tham khảo về điều này?
  4. Có vấn đề gì không nếu mục tiêu chính của bạn là sử dụng PC1 và có thể cả PC2:

    • chỉ đơn giản là đồ họa, hoặc
    • như biến tổng hợp sau đó được sử dụng trong hồi quy?

Tôi nhớ đọc về loại hướng dẫn này liên quan đến phân tích nhân tố. Bạn cũng quan tâm đến điều đó hay chỉ trong PCA? Ngoài ra, câu trả lời có thể phụ thuộc vào loại dữ liệu bạn đang xử lý, bạn có một lĩnh vực ứng dụng cụ thể nào không?
Gala

1
Cảm ơn Gael cho ý kiến ​​và tài liệu tham khảo dưới đây. Bây giờ tôi còn cần phải biết sự khác biệt giữa FA và PCA. :)
Patrick

3
Câu hỏi này đã được xử lý rộng rãi trên trang web này, xem ví dụ: stats.stackexchange.com/questions/1576/ Kẻstats.stackexchange.com/questions/612/
Gala

Câu trả lời:


21

Bạn thực sự có thể đo xem kích thước mẫu của bạn có "đủ lớn" hay không. Một triệu chứng của cỡ mẫu nhỏ là quá nhỏ là sự không ổn định.

Bootstrap hoặc xác thực chéo PCA của bạn: các kỹ thuật này làm xáo trộn bộ dữ liệu của bạn bằng cách xóa / trao đổi một phần nhỏ mẫu của bạn và sau đó xây dựng "mô hình thay thế" cho mỗi bộ dữ liệu bị xáo trộn. Nếu các mô hình thay thế đủ tương tự (= ổn định), bạn vẫn ổn. Có lẽ bạn sẽ cần phải tính đến rằng giải pháp của PCA không phải là duy nhất: PC có thể lật (nhân cả điểm số và thành phần chính tương ứng với ). Bạn cũng có thể muốn sử dụng xoay Procrustes, để có được các mô hình PC giống nhau nhất có thể.1


Cảm ơn cbeleites. Bạn có nghĩ bootstrapping sẽ có quá nhiều thông tin với n thấp như, giả sử, 16 không? Để hiểu, tôi chỉ cần tìm kiếm sự ổn định tương đối bằng cách chạy nhiều PCA, mỗi lần chạy một trang web.
Patrick

Trong trường hợp đó, chắc chắn có thể xem xét tất cả 16 mô hình bị xáo trộn bằng cách xóa một mẫu (hoặc thậm chí ở tất cả 120 mô hình còn lại 2 mẫu). Tôi nghĩ với nhỏ tôi có thể đi cho một cách tiếp cận giống như cv có hệ thống. n
cbeleites hỗ trợ Monica

23

Đối với phân tích nhân tố (không phải phân tích thành phần chính), có khá nhiều tài liệu đặt câu hỏi về một số quy tắc cũ về số lượng quan sát. Các khuyến nghị truyền thống - ít nhất là trong tâm lý học - sẽ có ít nhất quan sát trên mỗi biến số (với x thường ở bất kỳ đâu từ 5 đến 20 ), vì vậy trong mọi trường hợp n p .xx520np

Một tổng quan khá kỹ lưỡng với nhiều tài liệu tham khảo có thể được tìm thấy tại http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Tuy nhiên, thông điệp mang đi chính từ các nghiên cứu mô phỏng gần đây có lẽ là chất lượng của các kết quả thay đổi rất nhiều (tùy thuộc vào cộng đồng, vào số lượng yếu tố hoặc tỷ lệ giữa các yếu tố, v.v.) mà xem xét tỷ lệ biến quan sát không phải là một cách tốt để quyết định số lượng quan sát cần thiết. Nếu các điều kiện tốt lành, bạn có thể thoát khỏi những quan sát ít hơn nhiều so với các hướng dẫn cũ sẽ đề xuất nhưng ngay cả những hướng dẫn bảo thủ nhất cũng quá lạc quan trong một số trường hợp. Ví dụ, Preacher & MacCallum (2002) đã thu được kết quả tốt với kích thước mẫu cực nhỏ và nhưng Mundfrom, Shaw & Ke (2005) đã tìm thấy một số trường hợp có cỡ mẫu n > 100 pp>nn>100plà cần thiết Họ cũng nhận thấy rằng nếu số lượng các yếu tố cơ bản giữ nguyên, nhiều biến số hơn (và không ít hơn, theo ngụ ý của hướng dẫn dựa trên tỷ lệ quan sát biến) có thể dẫn đến kết quả tốt hơn với các mẫu quan sát nhỏ.

Tài liệu tham khảo có liên quan:

  • Mundfrom, DJ, Shaw, DG, & Ke, TL (2005). Khuyến nghị kích thước mẫu tối thiểu để tiến hành phân tích nhân tố. Tạp chí thử nghiệm quốc tế, 5 (2), 159-168.
  • Nhà thuyết giáo, KJ, & MacCallum, RC (2002). Phân tích nhân tố khám phá trong nghiên cứu di truyền học hành vi: Phục hồi nhân tố với cỡ mẫu nhỏ. Di truyền học hành vi, 32 (2), 153-161.
  • de Winter, JCF, Dodou, D., & Wieringa, PA (2009). Phân tích nhân tố khám phá với kích thước mẫu nhỏ. Nghiên cứu hành vi đa biến, 44 (2), 147-181.

5
(+1) Đây là một bài báo khác, sử dụng mô phỏng và bộ dữ liệu thực, cho thấy quy tắc ngón tay cái N / p không hoạt động tốt trong thực tế và cung cấp kích thước mẫu cần thiết để có được giải pháp ổn định và chính xác trong EFA- - Kiểm soát các tiêu chí chất lượng khác nhau - như là một hàm của số lượng các yếu tố và số lượng vật phẩm (và tùy ý là nửa chiều rộng của Cronbach 'alpha 95% CI, dựa trên công thức của Feldt) trong thang đo tâm thần: Yêu cầu về kích thước mẫu cho xác nhận nội bộ của thang đo tâm thần Int J Phương pháp Tâm thần Res. 2011 tháng 12; 20 (4): 235-49.
chl

1

Ý tưởng đằng sau sự bất bình đẳng MVA rất đơn giản: PCA tương đương với ước tính ma trận tương quan của các biến. Bạn đang cố đoán (ma trận đối xứng) hệ số từdữ liệunp. (Đó là lý do tại sao bạn nên có n >> p.)pp12np

Sự tương đương có thể được nhìn thấy theo cách này: mỗi bước PCA là một vấn đề tối ưu hóa. Chúng tôi đang cố gắng tìm hướng wich thể hiện sự khác biệt nhất. I E:

max(aiTΣai)

Trong đó là ma trận hiệp phương sai.σ

theo các ràng buộc:

aiTai=1

aiTaj=0
j<i

Σσ

Lấy n = p tương đương ít nhiều để đoán một giá trị chỉ có hai dữ liệu ... không đáng tin cậy.

2np


kk(p1)+(p2)++(pk)pkp(p1)/2
whuber

Vấn đề là bạn đang tính các hệ số (pk) của các hàm riêng từ các hệ số p (p-1) / 2 của ma trận. Đối với một ma trận ngẫu nhiên, tôi không nghĩ có một cách để "bỏ qua" một số hệ số tính toán hàm riêng / giá trị riêng.
lcrmorin

Chắc chắn là có: các thuật toán thông thường tìm thấy các giá trị riêng và các hàm riêng mỗi lần, từ giá trị riêng lớn nhất trở xuống. Bên cạnh đó, đây không phải là vấn đề tính toán, mà là một trong việc đếm số lượng giá trị ước tính - trừ khi tôi đọc sai câu trả lời của bạn?
whuber

1

Tôi hy vọng điều này có thể hữu ích:

cho cả FA và PCA

'' Các phương pháp được mô tả trong chương này yêu cầu các mẫu lớn để lấy được các giải pháp ổn định. Những gì tạo thành một kích thước mẫu đầy đủ là hơi phức tạp. Cho đến gần đây, các nhà phân tích đã sử dụng các quy tắc ngón tay cái như phân tích nhân tố, yêu cầu số lượng đối tượng gấp 5 lần10 lần. cũng tập hợp các yếu tố giải thích phương sai trong các biến (Bandalos và Boehm-Kaufman, 2009). Tôi sẽ đi ra ngoài và nói rằng nếu bạn có hàng trăm quan sát, có lẽ bạn an toàn. ''

Tài liệu tham khảo:

Bandalos, DL và MR Boehm-Kaufman. 2009. Bốn vấn đề sai lầm phổ biến trong phân tích nhân tố khám phá. Trong các huyền thoại thống kê và phương pháp luận và huyền thoại đô thị, được chỉnh sửa bởi CE Lance và RJ Vandenberg, 61 Chuyện87. New York: Routledge.

từ "R in Action" của Robert I. Kabacoff, cuốn sách rất nhiều thông tin với những lời khuyên tốt bao gồm hầu hết các bài kiểm tra thống kê.


2
Có vẻ như bạn chỉ đang cắm một cuốn sách và thử lại một số điểm được thực hiện trước khi dựa trên nguồn thứ cấp hoặc đại học. Điều này có vẻ không hữu ích lắm. Ít nhất bạn có thể cung cấp tài liệu tham khảo đầy đủ cho Bandalos và Boehm-Kaufman, 2009 không?
Gala
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.