Lựa chọn mô hình PCA bằng AIC (hoặc BIC)


12

Tôi muốn sử dụng Tiêu chí Thông tin Akaike (AIC) để chọn số lượng yếu tố thích hợp để trích xuất trong PCA. Vấn đề duy nhất là tôi không chắc chắn làm thế nào để xác định số lượng tham số.

Hãy xem xét một ma trận X , nơi N đại diện cho số của các biến và T số quan sát, như vậy mà X ~ N ( 0 , Σ ) . Do ma trận hiệp phương sai là đối xứng, nên ước tính khả năng tối đa là Σ có thể đặt số lượng tham số trong AIC bằng N ( N + 1 )T×NXNTXN(0,Σ)Σ .N(N+1)2

Ngoài ra, trong một PCA, bạn có thể trích xuất các đầu tiên vector riêng và giá trị riêng của Σ , gọi cho họ β fΛ f và sau đó tính toán Σ = β f Λ f β ' f + Tôi σ 2 r nơi σ 2 r là dư trung bình phương sai. Theo tính toán của tôi, nếu bạn có các yếu tố f , thì bạn sẽ f tham số trong các tham số Λ f , N f trong β f1fΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1tham số trong .σr2

Cách tiếp cận này có đúng không? Nó có vẻ như nó sẽ dẫn đến các thông số hơn cách tiếp cận khả năng tối đa khi số lượng các yếu tố tăng lên .N


1
vượt qua các tham số: có sự dư thừa do thực tế là các hàm riêng là trực giao lẫn nhau. Nf
whuber

10
Các eigenvector đầu tiên có tham số miễn phí. Điều kiện trực giao hạn chế hàm riêng thứ hai đối với không gian trực giao trực giao với thứ nhất, chỉ cần các tham số N - 1 . Mỗi eigenvector liên tiếp cần một tham số ít hơn so với trước đó. Ở giới hạn của N eigenvector bạn loại bỏ σ 2NN1N (vì nó bây giờ không), choN+(N-1)++1=N(N+1)/2thông sốtrong toto,σr2N+(N1)++1N(N+1)/2phù hợp với số lượng tham số đầu tiên của bạn.
whuber

1
@ A.Donda Tình hình là mơ hồ: chúng ta hãy giả sử rằng bạn cũng đã chỉ ra đa của mỗi eigenvalue và rằng những bội là tổng hợp để N . Cho phép PCA tìm thấy một phép biến đổi trực giao, chúng ta sẽ có các tham số N ( N - 1 ) / 2 để xác định nó. Nhưng các chất ổn định của mỗi không gian eigens là các nhóm trực giao trong các kích thước n i . Mỗi cái loại bỏ n i ( n in1,n2,,ns,N.N(N1)/2ni. tham số, để lại N ( N - 1 ) / 2 - s i = 1 n i ( n i - 1 ) / 2 tham số chophép quay. Các s giá trị riêng cung cấp các thông số còn lại. ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
(Tôi nên thêm rằng ứng dụng của việc đếm này cho câu hỏi không rõ ràng: PCA sử dụng tất cả các tham , ngay cả khi nó có thể tìm thấy một số giá trị riêng của bội số cao hơn. Và trong hầu hết mọi dữ liệu thực, dù sao nó cũng sẽ không bao giờ có được bội số lớn hơn 1. )N(N1)/21
whuber

1
@whuber, cảm ơn! Câu hỏi của tôi được thúc đẩy bởi một tình huống mà tôi ước tính một ma trận hiệp phương sai dưới một ràng buộc về giá trị bản địa.
A. Donda

Câu trả lời:


5

Các tác phẩm của Minka ( Sự lựa chọn tự động về chiều cho PCA , 2000) và của Tipping & Giám mục ( Phân tích thành phần chính xác suất ) liên quan đến quan điểm xác suất của PCA có thể cung cấp cho bạn khuôn khổ mà bạn quan tâm. Công việc của Minka cung cấp xấp xỉ nhật ký khả năng trong đó k là thứ nguyên tiềm ẩn của tập dữ liệu D của bạn bằng cách sử dụng xấp xỉ Laplace; như đã nêu rõ: "Đơn giản hóa phương pháp của Laplace là xấp xỉ BIC.logp(D|k)kD "

Rõ ràng điều này có quan điểm Bayes về vấn đề của bạn không dựa trên các tiêu chí lý thuyết thông tin (phân kỳ KL) được sử dụng bởi AIC.

Về câu hỏi "xác định số tham số" ban đầu, tôi cũng nghĩ rằng bình luận của @ whuber mang trực giác chính xác.


Tôi đã chơi xung quanh với AIC so với AICc trên các ma trận ngẫu nhiên có kích cỡ khác nhau. AICc dường như đang làm việc tốt hơn. Những tài liệu tham khảo đó có vẻ tốt, nhưng tôi chưa có cơ hội tiêu hóa.
Giăng

6

Việc chọn số lượng thành phần "phù hợp" trong PCA có thể được thực hiện một cách thanh lịch với Phân tích song song của Horn (PA). Giấy tờ cho thấy tiêu chí này luôn vượt trội so với các quy tắc của ngón tay cái như tiêu chí khuỷu tay hoặc quy tắc của Kaiser. Gói R "paran" có triển khai PA chỉ cần một vài lần nhấp chuột.

Tất nhiên, có bao nhiêu thành phần bạn giữ lại phụ thuộc vào mục tiêu giảm dữ liệu. Nếu bạn chỉ muốn duy trì phương sai là "có ý nghĩa", PA sẽ giảm tối ưu. Tuy nhiên, nếu bạn muốn giảm thiểu việc mất thông tin của dữ liệu gốc, bạn nên giữ lại đủ các thành phần để che lấp phương sai được giải thích 95%. Điều này rõ ràng sẽ giữ nhiều thành phần hơn PA, mặc dù đối với các bộ dữ liệu chiều cao, việc giảm kích thước sẽ vẫn đáng kể.

Một lưu ý cuối cùng về PCA là vấn đề "lựa chọn mô hình". Tôi không hoàn toàn đồng ý với câu trả lời của Peter. Đã có một số bài báo cải tổ PCA thành một vấn đề kiểu hồi quy, chẳng hạn như PCA thưa thớt, PCA xác suất thưa thớt, hoặc ScotLASS. Trong các giải pháp PCA "dựa trên mô hình" này, tải là các tham số có thể được đặt thành 0 với các điều khoản phạt thích hợp. Có lẽ, trong bối cảnh này, cũng có thể tính toán thống kê loại AIC hoặc BIC cho mô hình đang được xem xét.

Về mặt lý thuyết, phương pháp này có thể bao gồm một mô hình trong đó, ví dụ, hai PC không bị giới hạn (tất cả các lần tải khác không), so với một mô hình trong đó PC1 không bị hạn chế và PC2 có tất cả các tải được đặt thành 0. Điều này sẽ tương đương với việc suy ra liệu PC2 có dư không trên toàn bộ.

Tài liệu tham khảo (PA) :

  • Dinno, A. (2012). paran: Kiểm tra các thành phần / yếu tố chính của Horn. Gói R phiên bản 1.5.1. http://CRAN.R-project.org/package=paran
  • Horn JL 1965. Một lý do và một bài kiểm tra về số lượng các yếu tố trong phân tích nhân tố. Tâm lý học . 30: 179 Từ185
  • Hubbard, R. & Allen SJ (1987). Một so sánh thực nghiệm của các phương pháp thay thế cho khai thác thành phần chính.Tạp chí nghiên cứu kinh doanh, 15 , 173-190.
  • Zwick, WR & Velicer, WF 1986. So sánh năm quy tắc để xác định số lượng thành phần cần giữ lại. Bản tin tâm lý. 99 : 432 Tiếng442

Chào mừng đến với trang web, @BenM. Từ câu trả lời của bạn, tôi nghĩ sẽ rất tốt khi có bạn ở bên (mặc dù tôi không biết đủ về PCA ngoài những điều cơ bản để đánh giá khiếu nại của bạn). Một câu hỏi, bạn lưu ý rằng các vị trí này đã được thiết lập tốt, bạn có thể liệt kê một vài ấn phẩm đại diện mà người đọc quan tâm có thể tìm thấy chi tiết hơn không?
gung - Phục hồi Monica

-1

AIC được thiết kế để lựa chọn mô hình. Đây thực sự không phải là một vấn đề lựa chọn mô hình và có lẽ bạn sẽ tốt hơn nếu thực hiện một cách tiếp cận khác. Một cách khác có thể là xác định tổng tỷ lệ phương sai nhất định được giải thích (như nói 75%) và dừng khi tỷ lệ này đạt 75% nếu có.


1
Tôi đang chọn giữa các mô hình khác nhau dựa trên số lượng yếu tố (mô hình có 1 yếu tố so với mô hình có 2, v.v.). Vấn đề với tỷ lệ phần trăm chênh lệch chủ yếu là nó bỏ qua chi phí ước tính các hàm sinh riêng bổ sung, đặc biệt khi số lượng quan sát ít hơn số lượng biến. AIC phù hợp với phương pháp PCA xác suất.
Giăng

3
Michael, bạn có thể giải thích chính xác tại sao đây không phải là một vấn đề lựa chọn mô hình? Có vẻ như John đã xác định rõ ràng nó là một.
whuber

@whuber Mô hình thống kê là gì? Dường như với tôi, việc quyết định số lượng thành phần chính được sử dụng để biểu thị x% của phương sai trong biến Y không chọn mô hình. Tôi cũng không nghĩ các thành phần chính là tham số mô hình.
Michael R. Chernick

2
XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0. Cả hai quan điểm kiểm tra cho mối tương quan hoàn hảo (collinearity); họ chỉ sử dụng các tham số khác nhau. Nếu bạn cho phép cái đầu tiên như một mô hình, bạn phải cho phép cái thứ hai.
whuber

-2

AIC không thích hợp ở đây. Bạn không chọn giữa các mô hình với số lượng tham số khác nhau - thành phần chính không phải là tham số.

Có một số phương pháp quyết định số lượng yếu tố hoặc thành phần từ phân tích nhân tố hoặc phân tích thành phần chính - thử nghiệm scree, eigenvalue> 1, v.v. Nhưng thử nghiệm thực sự là thực chất: Số lượng yếu tố nào có ý nghĩa ? Xem xét các yếu tố, xem xét các trọng số, tìm ra cái nào phù hợp nhất với dữ liệu của bạn.

Giống như những thứ khác trong thống kê, đây không phải là thứ có thể dễ dàng tự động.


4
ΣΣ

1
@whuber Một tham số của ma trận hiệp phương sai có thể nhưng không phải là tham số mô hình. Tôi bên cạnh Peter về điều này.
Michael R. Chernick

3
Peter, chính xác thì bạn đang phân biệt giữa "tham số mô hình" và "tham số" nào? Tôi không biết về bất kỳ điều gì như vậy và vì vậy sẽ đánh giá cao việc tìm hiểu về điều này. Nếu mục đích của bạn là tìm một mô tả kỹ lưỡng về hiệp phương sai đa biến, chúng không tạo thành các tham số "mô hình"?
whuber

3
nmn

1
Cảm ơn bạn về thông tin. Chuỗi thời gian là một lĩnh vực thống kê mà tôi biết rất ít.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.