Ví dụ về PCA trong đó các PC có phương sai thấp là có ích

24

Thông thường trong phân tích thành phần chính (PCA), một số PC đầu tiên được sử dụng và các PC có phương sai thấp bị loại bỏ, vì chúng không giải thích được nhiều sự thay đổi trong dữ liệu.

Tuy nhiên, có những ví dụ mà các PC biến thể thấp rất hữu ích (nghĩa là đã sử dụng trong ngữ cảnh của dữ liệu, có giải thích trực quan, v.v.) và không nên vứt bỏ?

pca

— Michael
nguồn

5

Khá ít. Xem PCA, tính ngẫu nhiên của thành phần? Điều này thậm chí có thể là một bản sao, nhưng tiêu đề của bạn rõ ràng hơn nhiều (do đó có thể dễ dàng tìm thấy hơn bằng cách tìm kiếm), vì vậy vui lòng không xóa nó ngay cả khi nó bị đóng như vậy.

— Nick Stauner

18

Đây là một đoạn trích hay từ Jolliffe ^{₍₁₉₈₂₎} mà tôi đã không đưa vào câu trả lời trước của mình cho câu hỏi tương tự, " Các thành phần phương sai thấp trong PCA, chúng có thực sự chỉ là tiếng ồn không? Có cách nào để kiểm tra không? " nó khá trực quan.

$\quad$ Giả sử rằng cần phải dự đoán chiều cao của nền tảng đám mây, , một vấn đề quan trọng tại các sân bay. Các biến khí hậu khác nhau được đo bao gồm nhiệt độ bề mặt và điểm sương bề mặt, . Ở đây, là nhiệt độ mà không khí bề mặt sẽ được bão hòa với hơi nước và sự khác biệt , là thước đo độ ẩm bề mặt. Bây giờ và thành phần có phương sai thấp tương quan tương tự với . Nhưng $H$ $T_s$ $T_d$ $T_d$ $T_s-T_d$ thường có mối tương quan dương, do đó, phân tích thành phần chính của các biến khí hậu sẽ có thành phần phương sai cao có tương quan cao với $T_s,T_d$ $T_s+T_d$ $T_s-T_d$ có liên quan đến độ ẩm và do đó để , tức là đến một sai thấp hơn là một thành phần sai cao, do đó, một chiến lược mà bác bỏ các thành phần sai thấp sẽ cung cấp cho dự đoán nghèo cho . $H$ $T_s-T_d$ $H$
$\quad$ Việc thảo luận về ví dụ này nhất thiết là mơ hồ vì những tác động chưa biết của bất kỳ biến khí hậu nào khác cũng được đo lường và đưa vào phân tích. Tuy nhiên, nó cho thấy một trường hợp hợp lý về mặt vật lý trong đó một biến phụ thuộc sẽ liên quan đến thành phần phương sai thấp, xác nhận ba ví dụ thực nghiệm từ tài liệu.
$\quad$ Hơn nữa, ví dụ cơ sở đám mây đã được thử nghiệm trên dữ liệu từ Sân bay Cardiff (Wales) trong giai đoạn 1966, 73 với một biến khí hậu bổ sung, nhiệt độ mặt nước biển, cũng được đưa vào. Kết quả về cơ bản như dự đoán ở trên. Thành phần chính cuối cùng là khoảng và nó chỉ chiếm 0 · 4 phần trăm của tổng biến thể. Tuy nhiên, trong hồi quy thành phần chính, nó dễ dàng là yếu tố dự báo quan trọng nhất đối với $T_s-T_d$ $H$ . _{^{^{[Nhấn mạnh thêm]}}}

Ba ví dụ từ văn học được đề cập trong câu cuối cùng của đoạn thứ hai là ba ví dụ tôi đã đề cập trong câu trả lời của mình cho câu hỏi được liên kết .

^{Tham khảo

Jolliffe, IT (1982). Lưu ý về việc sử dụng các thành phần chính trong hồi quy. Thống kê áp dụng, 31 (3), 300 trận303. Lấy từ http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .}

— Nick Stauner
nguồn

Điều này thực sự mát mẻ. Tôi chỉ cần thêm một lưu ý rằng

luôn lớn hơn

V (A + B) = V (A) + V (B) + 2 C o v (A, B)

$V(A+B) =V(A)+V(B)+2\mathrm{Cov}(A,B)$

V (A - B) = V (A) + V (B) - 2 C o v (A, B)

$V(A-B) =V(A)+V(B)-2\mathrm{Cov}(A,B)$ . Điều đó khiến tôi tăng thêm một giây để hiểu lý do tại sao

nhất thiết phải là một thành phần "phương sai thấp"

T_{s} - T_{d}

$T_s - T_d$

— Shadowtalker

+1, đây là một ví dụ hay. Thật thú vị, nó cũng là một ví dụ về sự đàn áp.

— gung - Tái lập Monica

17

Nếu bạn có R, có một ví dụ tốt trong crabsdữ liệu trong gói MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Hơn 98% phương sai được "giải thích" bởi hai PC đầu tiên, nhưng thực tế nếu bạn thực sự đã thu thập các phép đo này và đang nghiên cứu chúng, PC thứ ba rất thú vị, vì nó liên quan chặt chẽ với loài cua. Nhưng nó bị ngập bởi PC1 (dường như tương ứng với kích thước của cua) và PC2 (dường như tương ứng với giới tính của cua.)

nhập mô tả hình ảnh ở đây

— Cá bơn
nguồn

2

+1, đây là một minh chứng thực sự gọn gàng. Tôi đã thực hiện 2 ma trận phân tán có thể được thêm vào, nếu bạn muốn.

— gung - Phục hồi Monica

1

@gung: Cảm ơn bạn đã thêm các biểu đồ phân tán! Tôi đã nêu lên câu trả lời này trước đây, nhưng không hoàn toàn đánh giá cao nó mà không nhìn thấy các âm mưu. Scatterplot PC2 vs PC3 thực sự rất hay: tách biệt cả giới tính và loài gần như hoàn hảo. Tôi cũng thích ví dụ này vì nó minh họa những gì xảy ra khi tất cả các biến có tương quan dương (ví dụ PC1 giải thích rất nhiều phương sai và về cơ bản là trung bình).

— amip nói rằng Tái lập lại Monica

1

Cảm ơn, @amoeba. Tôi thực sự thích cách họ bật ra. Tôi đã dành rất nhiều thời gian để làm quen với chúng (màu sắc, pch, lables, huyền thoại). Tôi thực sự nghĩ rằng họ là loại đẹp bây giờ. Bạn làm cho một điểm tốt về PC1. Chúng ta cũng có thể thấy rằng (có thể) có một hệ số biến đổi và tương tác không đổi theo giới tính & / hoặc loài trong nhiều mối quan hệ: cua nhỏ (bé?) Có xu hướng có cùng các giá trị bất kể giới tính hay loài, nhưng như họ lớn lên (tuổi?) họ trở nên khác biệt hơn. V.v. Có rất nhiều thứ gọn gàng để xem - bạn có thể tiếp tục nhìn vào chúng.

— gung - Phục hồi Monica

8

Dưới đây là hai ví dụ từ kinh nghiệm của tôi (quang phổ, quang học / rung / quang phổ Raman):

Gần đây tôi có dữ liệu quang phổ quang học, trong đó> 99% tổng phương sai của dữ liệu thô là do thay đổi ánh sáng nền (đèn chiếu sáng mạnh hơn hoặc ít hơn ở điểm đo, bật / tắt đèn huỳnh quang, nhiều hay ít mây trước mặt trời). Sau khi hiệu chỉnh nền với phổ quang học của các yếu tố ảnh hưởng đã biết (được PCA trích xuất trên dữ liệu thô; các phép đo bổ sung được thực hiện để che các biến thể đó), hiệu ứng chúng tôi quan tâm đã xuất hiện trong PC 4 và 5.
PC 1 và 3 trong đó do các hiệu ứng khác trong mẫu đo và PC 2 tương quan với đầu dụng cụ nóng lên trong quá trình đo.
Trong một phép đo khác, một thấu kính không có hiệu chỉnh màu cho dải phổ đo được sử dụng. Sự quang sai màu dẫn đến sự biến dạng trong quang phổ chiếm ca. 90% tổng phương sai của dữ liệu được xử lý trước (được chụp hầu hết trong PC 1).
Đối với dữ liệu này, chúng tôi mất khá nhiều thời gian để nhận ra chính xác điều gì đã xảy ra, nhưng chuyển sang mục tiêu tốt hơn đã giải quyết vấn đề cho các thử nghiệm sau này.

(Tôi không thể hiển thị chi tiết vì các nghiên cứu này vẫn chưa được công bố)

— cbeleites hỗ trợ Monica
nguồn

3

Tôi đã nhận thấy rằng các PC có phương sai thấp là hữu ích nhất khi thực hiện PCA trên ma trận hiệp phương sai trong đó dữ liệu cơ bản được nhóm hoặc nhóm theo một cách nào đó. Nếu một trong các nhóm có phương sai trung bình thấp hơn đáng kể so với các nhóm khác, thì các PC nhỏ nhất sẽ bị nhóm đó chi phối. Tuy nhiên, bạn có thể có một số lý do để không muốn vứt bỏ kết quả từ nhóm đó.

Trong tài chính, lợi nhuận chứng khoán có độ lệch chuẩn khoảng 15-25% hàng năm. Những thay đổi trong lợi suất trái phiếu trong lịch sử có độ lệch chuẩn thấp hơn nhiều. Nếu bạn thực hiện PCA trên ma trận hiệp phương sai của lợi nhuận cổ phiếu và thay đổi lợi suất trái phiếu, thì các PC hàng đầu sẽ phản ánh phương sai của cổ phiếu và những cái nhỏ nhất sẽ phản ánh phương sai của trái phiếu. Nếu bạn vứt bỏ PC giải thích các liên kết, thì bạn có thể gặp rắc rối. Ví dụ, trái phiếu có thể có các đặc điểm phân phối rất khác so với cổ phiếu (đuôi mỏng hơn, thuộc tính phương sai khác nhau theo thời gian, đảo ngược trung bình khác nhau, hợp nhất, v.v.). Đây có thể là rất quan trọng để mô hình, tùy thuộc vào hoàn cảnh.

Nếu bạn thực hiện PCA trên ma trận tương quan, thì bạn có thể thấy nhiều PC giải thích các liên kết gần đầu.

— John
nguồn

Câu trả lời này rất khó hiểu nếu người ta không biết cổ phiếu, trái phiếu, lợi tức và lợi nhuận là gì. Tôi không biết, và vì vậy tôi không thể thấy câu đầu tiên của bạn có liên quan đến câu thứ hai của bạn như thế nào ...

— amip nói rằng Rebstate Monica

1

Tôi đã thực hiện một số chỉnh sửa.

— Giăng

1

Trong cuộc nói chuyện này ( slide ), những người thuyết trình thảo luận về việc sử dụng PCA của họ để phân biệt giữa các tính năng biến đổi cao và biến đổi thấp.

Họ thực sự thích các tính năng biến đổi thấp để phát hiện bất thường, vì một sự thay đổi đáng kể trong kích thước biến đổi thấp là một chỉ báo mạnh mẽ về hành vi dị thường. Ví dụ động lực họ cung cấp như sau:

Giả sử người dùng luôn đăng nhập từ máy Mac. Kích thước "hệ điều hành" của hoạt động của họ sẽ có phương sai rất thấp. Nhưng nếu chúng ta thấy một sự kiện đăng nhập từ cùng một người dùng trong đó "hệ điều hành" là Windows, điều đó sẽ rất thú vị và là thứ chúng ta muốn nắm bắt.

— rùa
nguồn