Các thành phần phương sai thấp trong PCA, chúng thực sự chỉ là tiếng ồn? Có cách nào để kiểm tra nó không?

18

Tôi đang cố gắng quyết định xem một thành phần của PCA có được giữ lại hay không. Có một lượng lớn các tiêu chí dựa trên độ lớn của giá trị riêng, được mô tả và so sánh, ví dụ ở đây hoặc ở đây .

Tuy nhiên, trong ứng dụng của tôi, tôi biết rằng giá trị riêng (est) nhỏ sẽ nhỏ so với giá trị riêng (st) lớn và các tiêu chí dựa trên cường độ sẽ loại bỏ giá trị nhỏ (est). Đây không phải là điều tôi muốn. Điều tôi quan tâm: có bất kỳ phương pháp nào được biết có tính đến thành phần tương ứng thực tế của giá trị riêng nhỏ, theo nghĩa: nó thực sự "chỉ" tiếng ồn như được ngụ ý trong tất cả các sách giáo khoa, hay có "cái gì đó" của tiềm năng lãi còn lại? Nếu nó thực sự là tiếng ồn, hãy loại bỏ nó, nếu không thì giữ nó, bất kể cường độ của giá trị riêng.

Có một số loại thử nghiệm ngẫu nhiên hoặc phân phối được thiết lập cho các thành phần trong PCA mà tôi không thể tìm thấy? Hoặc có ai biết một lý do mà đây sẽ là một ý tưởng ngớ ngẩn?

Cập nhật

Biểu đồ (màu xanh lá cây) và xấp xỉ bình thường (màu xanh) của các thành phần trong hai trường hợp sử dụng: một lần có lẽ thực sự nhiễu, một lần có lẽ không "chỉ" tiếng ồn (vâng, các giá trị nhỏ, nhưng có lẽ không ngẫu nhiên). Giá trị số ít nhất là ~ 160 trong cả hai trường hợp, nhỏ nhất, tức là giá trị số ít này, là 0,0xx - quá nhỏ đối với bất kỳ phương pháp cắt nào.

Những gì tôi đang tìm kiếm là một cách để chính thức hóa điều này ...

có lẽ thực sự "chỉ" tiếng ồn có thể không gây ồn nhưng có thể chứa các bit thú vị

pca

— Daniel
nguồn

2

Nhiều thử nghiệm bạn đề cập có chính xác tài sản bạn yêu cầu: họ cố gắng phân biệt "nhiễu" với "tín hiệu".

— whuber

2

Gần đây tôi đã quan tâm đến một câu hỏi tương tự, nhưng trong một tình huống cụ thể khi bạn có nhiều phép đo cho mỗi điểm dữ liệu. Xem phần Chọn số lượng thành phần PCA khi có nhiều mẫu cho mỗi điểm dữ liệu . Có lẽ nó áp dụng cho trường hợp của bạn là tốt?

— amip nói phục hồi Monica

Sử dụng các thử nghiệm phân phối trên PC để quyết định âm thanh ngẫu nhiên của chúng là một ý tưởng rất thú vị (mà tôi chưa từng thấy được áp dụng); một cái gì đó tương tự được thực hiện trong ICA, đặc biệt tìm kiếm các thành phần không phải là Gaussian tối đa. Làm PCA và sau đó loại bỏ các thành phần "quá Gaussian" có hương vị ICA với nó và thực sự có thể hoạt động!

— amip nói rằng Phục hồi Monica

20

Một cách để kiểm tra tính ngẫu nhiên của một thành phần chính nhỏ (PC) là coi nó như một tín hiệu thay vì nhiễu: tức là cố gắng dự đoán một biến quan tâm khác với nó. Đây thực chất là hồi quy thành phần chính (PCR) .

$R^2$ $MSE$

Một mô hình kỹ thuật hóa học sử dụng PC 1, 3, 4, 6, 7 và 8 trên tổng số 9 ^{( Smith & Campbell, 1980 )}
Một mô hình gió mùa sử dụng PC 8, 2 và 10 (theo thứ tự quan trọng) trong số 10 ^{( Kung & Sharif, 1980 )}
Một mô hình kinh tế sử dụng PC 4 và 5 trên 6 ^{(Hill, Fomby, & Johnson, 1977)}

Các PC trong các ví dụ được liệt kê ở trên được đánh số theo kích thước được xếp hạng riêng của chúng. Jolliffe (1982) mô tả một mô hình đám mây trong đó thành phần cuối cùng đóng góp nhiều nhất. Ông kết luận:

Các ví dụ trên đã chỉ ra rằng không cần thiết phải tìm dữ liệu tối nghĩa hoặc kỳ quái để một vài thành phần chính cuối cùng quan trọng trong hồi quy thành phần chính. Thay vào đó, có vẻ như các ví dụ như vậy có thể khá phổ biến trong thực tế. Hill và cộng sự. (1977) đưa ra một cuộc thảo luận kỹ lưỡng và hữu ích về các chiến lược để lựa chọn các thành phần chính đáng lẽ phải chôn vùi mãi ý tưởng lựa chọn chỉ dựa trên kích thước của phương sai. Thật không may, điều này dường như không xảy ra, và ý tưởng có lẽ phổ biến hơn bây giờ hơn 20 năm trước.

$SS$

$(p-1)$ $\text{Y}$ có thể phù hợp hoàn hảo với PC cuối cùng luôn luôn là PC cuối cùng bỏ qua phương pháp PCR.

$\text{X}$ . Do đó, nếu sử dụng PCR, nên thận trọng khi sử dụng và lựa chọn các PC để giữ không chỉ bằng cách phân tách phương sai mà còn bởi sự đóng góp của từng thành phần chính vào tổng bình phương hồi quy.

Tôi nợ câu trả lời này cho @Scortchi, người đã sửa chữa những quan niệm sai lầm của riêng tôi về lựa chọn PC trong PCR với một số ý kiến rất hữu ích, bao gồm: " Jolliffe (2010) xem xét các cách khác để chọn PC." Tài liệu tham khảo này có thể là một nơi tốt để tìm kiếm thêm ý tưởng.

Người giới thiệu

^{- Súng, RF, & Mason, RL (1977). Ước lượng thiên vị trong hồi quy: một đánh giá sử dụng sai số bình phương trung bình. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 72 (359), 616 Từ628.

- Hadi, AS, & Ling, RF (1998). Một số lưu ý cảnh báo về việc sử dụng hồi quy thành phần chính. Thống kê người Mỹ, 52 (1), 15 trận19. Lấy từ http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .

- Hawkins, DM (1973). Về việc điều tra hồi quy thay thế bằng phân tích thành phần chính. Thống kê áp dụng, 22 (3), 275 Từ286.

- Đồi, RC, Fomby, TB, & Johnson, SR (1977). Định mức lựa chọn thành phần cho hồi quy thành phần chính.Truyền thông trong thống kê - Lý thuyết và phương pháp, 6 (4), 309 Phản34.

- Khách sạn, H. (1957). Mối quan hệ của các phương pháp thống kê đa biến mới hơn để phân tích nhân tố. Tạp chí Tâm lý học Thống kê Anh, 10 (2), 69 bù79.

- Jackson, E. (1991). Hướng dẫn sử dụng cho các thành phần chính . New York: Wiley.

- Jolliffe, CNTT (1982). Lưu ý về việc sử dụng các thành phần chính trong hồi quy. Thống kê áp dụng, 31 (3), 300 trận303. Lấy từ http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

- Jolliffe, CNTT (2010).Phân tích thành phần chính (tái bản lần 2). Mùa xuân.

- Kung, EC, & Sharif, TA (1980). Dự báo hồi quy về sự khởi đầu của gió mùa hè Ấn Độ với điều kiện không khí phía trên trước đó. Tạp chí Khí tượng học ứng dụng, 19 (4), 370 Máy 380. Lấy từ http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .

- Lott, WF (1973). Tập hợp tối ưu của các hạn chế thành phần chính đối với hồi quy bình phương nhỏ nhất. Truyền thông trong Thống kê - Lý thuyết và Phương pháp, 2 (5), 449 Từ464.

- Mason, RL, & Gunst, RF (1985). Chọn thành phần chính trong hồi quy. Số liệu thống kê và xác suất, 3 (6), 299.

- Khối lượng lớn, WF (1965). Hồi quy thành phần chính trong nghiên cứu thống kê thăm dò. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 60 (309), 234 Từ256. Lấy từ http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .

- Smith, G., & Campbell, F. (1980). Một bài phê bình về một số phương pháp hồi quy sườn núi.Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 75 (369), 74 Từ81. Lấy từ https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .}

— Nick Stauner
nguồn

4

... Và không có gì đảm bảo rằng hiệu ứng bạn cần giải quyết vấn đề của bạn lớn hơn các hiệu ứng khác chỉ là tiếng ồn. vấn đề trong tầm tay. Tôi đã thấy dữ liệu trong đó 95% phương sai là nhiễu do một số hiệu ứng vật lý ...

— cbeleites hỗ trợ Monica

3

Rất thoải mái xem xét, nhưng (xin lỗi để ngụy biện nữa) tốc độ Hadi & Ling, chọn máy tính để giữ lại trong một hồi quy dựa trên mối quan hệ mạnh mẽ của họ để đáp ứng, là nguy hiểm như chọn dự đoán ban đầu dựa trên mối quan hệ mạnh mẽ của họ để đáp ứng. Xác nhận chéo là cần thiết và co rút thích hợp hơn. Cá nhân tôi thích sử dụng PCA một cách thận trọng cùng với kiến thức về chủ đề để hướng dẫn giảm dữ liệu trên các yếu tố dự đoán, mù với phản ứng, ví dụ như sử dụng PC đầu tiên của các nhóm dự đoán đo lường nhiều thứ giống nhau hoặc được xác định bằng cách phân cụm.

— Scortchi - Phục hồi Monica

2

+1 (cách đây rất lâu) cho câu trả lời này, nhưng sau khi xem lại chủ đề này, tôi phải nói rằng câu trả lời này gần như không trả lời câu hỏi ban đầu: OP đã hỏi về việc liệu người ta có thể sử dụng bất kỳ bài kiểm tra phân phối nào trên các thành phần để đánh giá không tính ngẫu nhiên của chúng. Xem thêm bình luận cuối cùng của tôi cho OP.

— amip nói rằng Phục hồi Monica

2

Thêm vào câu trả lời của @Nick Stauner, khi bạn đang xử lý phân cụm không gian con, PCA thường là một giải pháp kém.

Khi sử dụng PCA, người ta chủ yếu quan tâm đến các hàm riêng có giá trị riêng cao nhất, đại diện cho các hướng mà dữ liệu được 'kéo dài' nhất. Nếu dữ liệu của bạn bao gồm các không gian con nhỏ, PCA sẽ bỏ qua chúng một cách long trọng vì chúng không đóng góp nhiều cho phương sai dữ liệu tổng thể.

Vì vậy, các eigenvector nhỏ không phải lúc nào cũng là tiếng ồn thuần túy.

— felipeduque
nguồn