PCA của dữ liệu không phải Gaussian


20

Tôi có một vài câu hỏi nhanh về PCA:

  • PCA có cho rằng tập dữ liệu là Gaussian không?
  • Điều gì xảy ra khi tôi áp dụng PCA cho dữ liệu phi tuyến tính vốn có?

Đưa ra một tập dữ liệu, quá trình đầu tiên là bình thường hóa, đặt phương sai thành 1, lấy SVD, giảm thứ hạng và cuối cùng ánh xạ tập dữ liệu vào không gian thứ hạng giảm mới. Trong không gian mới, mỗi chiều tương ứng với một "hướng" của phương sai tối đa.

  • Nhưng sự tương quan của tập dữ liệu đó trong không gian mới luôn luôn bằng không, hay điều đó chỉ đúng với dữ liệu vốn là Gaussian?

Giả sử tôi có hai bộ dữ liệu, "A" và "B", trong đó "A" tương ứng với các điểm được lấy mẫu ngẫu nhiên được lấy từ một Gaussian, trong khi "B" tương ứng với các điểm được lấy mẫu ngẫu nhiên từ một phân phối khác (giả sử là Poisson).

  • PCA (A) so với PCA (B) như thế nào?
  • Bằng cách nhìn vào các điểm trong không gian mới, làm thế nào tôi xác định được PCA (A) tương ứng với các điểm được lấy mẫu từ Gaussian, trong khi PCA (B) tương ứng với các điểm được lấy mẫu từ Poisson?
  • Là mối tương quan của các điểm trong "A" 0?
  • Là mối tương quan của các điểm trong "B" cũng là 0?
  • Quan trọng hơn, tôi có hỏi câu hỏi "đúng" không?
  • Tôi nên xem xét mối tương quan, hay có một số liệu nào khác mà tôi nên xem xét?

2
Xem phần phụ lục về các giả định của PCA trong bài viết này .
giả định

Câu trả lời:


17

Bạn đã có một vài câu trả lời hay ở đây (+1 cho cả @ Cam.Davidson.Pilon & @MichaelCécick). Hãy để tôi đưa ra một vài điểm giúp tôi suy nghĩ về vấn đề này.

Đầu tiên, PCA hoạt động trên ma trận tương quan. Vì vậy, dường như đối với tôi câu hỏi quan trọng là liệu có hợp lý khi sử dụng ma trận tương quan để giúp bạn suy nghĩ về dữ liệu của mình hay không. Ví dụ, tương quan thời điểm sản phẩm Pearson đánh giá mối quan hệ tuyến tính giữa hai biến; nếu các biến của bạn có liên quan, nhưng không tuyến tính, thì mối tương quan không phải là một số liệu lý tưởng để chỉ số sức mạnh của mối quan hệ. ( Đây là một cuộc thảo luận tốt về CV về dữ liệu tương quan và dữ liệu không bình thường.)

Thứ hai, tôi nghĩ cách dễ nhất để hiểu những gì đang xảy ra với PCA là bạn chỉ đơn giản là xoay trục của mình. Tất nhiên, bạn có thể làm nhiều việc hơn và thật không may, PCA bị nhầm lẫn với phân tích nhân tố (điều chắc chắn sẽ xảy ra nhiều hơn). Tuy nhiên, PCA cũ đơn giản không có chuông và còi, có thể được nghĩ như sau:

  • bạn có một số điểm được vẽ theo hai chiều trên một tờ giấy biểu đồ;
  • bạn có một sự trong suốt với các trục trực giao được vẽ trên đó và một lỗ kim ở gốc;
  • bạn căn giữa nguồn gốc của độ trong suốt (nghĩa là lỗ kim) trên và đặt đầu bút chì của bạn qua lỗ kim để giữ nó đúng vị trí; (x¯,y¯)
  • sau đó bạn xoay độ trong suốt cho đến khi các điểm (khi được lập chỉ mục theo trục của độ trong suốt thay vì các điểm ban đầu) không tương thích.

Đây không phải là một phép ẩn dụ hoàn hảo cho PCA (ví dụ: chúng tôi đã không giải quyết các phương sai thành 1). Nhưng không cung cấp cho mọi người những ý tưởng cơ bản. Vấn đề bây giờ là sử dụng hình ảnh đó để suy nghĩ về kết quả trông như thế nào nếu dữ liệu không phải là Gaussian bắt đầu; Điều đó sẽ giúp bạn quyết định liệu quy trình này có đáng làm hay không. Mong rằng sẽ giúp.


2
+1 (từ lâu rồi). Tôi nghĩ rằng đây là câu trả lời tốt nhất trong chủ đề này, hy vọng nó sẽ thu thập thêm một upvote để trở thành một câu trả lời nhiều nhất. Tôi thích cách bạn giải thích PCA một cách minh bạch, thật tuyệt.
amip nói rằng Phục hồi Monica

Nhân tiện, câu trả lời này của bạn đã truyền cảm hứng cho câu trả lời gần đây của tôi trong chủ đề PCA giáo dân khổng lồ của chúng tôi: Tôi đã tạo ra những gif hoạt hình có ý nghĩa tương tự trong suốt của bạn.
amip nói rằng Tái lập lại Monica

Đó là một câu trả lời tuyệt vời, @amoeba. Nó tốt hơn nhiều so với điều này.
gung - Phục hồi Monica

13

Tôi có thể đưa ra một giải pháp một phần và hiển thị câu trả lời cho đoạn thứ haiw1w2Xw1Xw2X

Cov(Xw1,Xw2)= =E[(Xw1)T(Xw2)]-E[Xw1]TE[Xw2]
wtôiX
w1TE[XTX]w2= =Vmộtr(X)w1Tw2= =0
wtôiVmộtr(X)

XXwXXw

α


7

Không có tính tuyến tính hoặc tính quy tắc được giả định trong PCA. Ý tưởng chỉ là phân tách biến thể trong bộ dữ liệu p-chiều thành các thành phần trực giao được sắp xếp theo số lượng phương sai được giải thích.


2
Đúng nhưng "phân tách biến thể trong tập dữ liệu p-chiều thành các thành phần trực giao" không hữu ích khi có sự phụ thuộc phi tuyến tính giữa các biến do việc trực giao thường được thực hiện để bạn có thể lập luận rằng các kích thước không liên quan (đó là cũng liên quan đến phần Gaussian của câu hỏi). Khi bạn đang thực hiện PCA và có kế hoạch diễn giải kết quả theo cách thông thường, có một giả định cơ bản rằng dữ liệu nằm trong không gian con tuyến tính chiều thấp hơn .
Macro

2
@Macro Không chính xác. Tôi muốn nói rằng giả định cơ bản là ít nhất là hầu hết các biến thiên và do đó mô hình của dữ liệu được tập trung trong một số không gian chiều thấp hơn. Tôi có thể xem một parabola rất tốt trong không gian 2 chiều với các thành phần trực giao. Tôi nghĩ rằng hình dạng phi tuyến có thể được xem trong hai hoặc ba chiều. Nếu dữ liệu đến từ phân phối Gaussian đa biến thì trong một số không gian con, các điểm sẽ trông giống như một đám mây hình elip. Bản phân phối không phải trông giống như một ellipsoid vì tầm nhìn của nó trong không gian con của các PC cao là điều thú vị.
Michael R. Chernick

4
Tôi sẽ đủ điều kiện này một chút. Không có giả định về tính quy tắc trong PCA cổ điển hoặc PCA bởi SVD. Tuy nhiên, các thuật toán EM để tính toán PCA với dữ liệu bị thiếu sẽ đảm nhận tính quy tắc và tuyến tính.
Giăng

Mặc dù con đường cổ điển đến PCA không cần bất kỳ giả định nào, có một con đường khác cho giải pháp của nó, đó là: PCA xác suất có độ ồn 0.
bayerj

3

Đọc trang 7 tại đây:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

họ lưu ý rằng PCA giả định rằng phân phối của bất cứ điều gì chúng ta đang giải thích có thể được mô tả bằng một giá trị trung bình (bằng 0) và phương sai mà họ nói chỉ có thể là phân phối Bình thường.

(Về cơ bản ngoài câu trả lời của Cam, nhưng tôi không đủ uy tín để bình luận :)


1
Liên kết bạn cung cấp cho hướng dẫn của Shlens là phiên bản 1 của hướng dẫn, nhưng phiên bản 3.02 (phiên bản cuối cùng?) Hiện đã có và điểm cụ thể này đã bị xóa. Ngoài ra, câu hỏi này hỏi chính xác về điều đó.
Oren Milman

0

Theo như tôi biết, PCA không thừa nhận tính bình thường của dữ liệu. Nhưng nếu nó được phân phối bình thường (theo nghĩa chung hơn, phân phối đối xứng), thì kết quả sẽ mạnh mẽ hơn. Như những người khác nói, mấu chốt là PCA dựa trên ma trận hệ số tương quan Pearson, trong đó ước tính bị ảnh hưởng bởi các ngoại lệ và phân phối lệch. Vì vậy, trong một số phân tích liên quan đến, chẳng hạn như kiểm tra thống kê hoặc giá trị p, thì bạn nên quan tâm nhiều hơn về việc liệu tính bình thường có được thỏa mãn hay không; nhưng trong các ứng dụng khác như phân tích thăm dò, bạn có thể sử dụng nó nhưng chỉ cẩn thận khi thực hiện các diễn giải.


-1

Đồng ý với những người khác nói rằng dữ liệu nên được phân phối "Thông thường". Bất kỳ phân phối nào sẽ trùng lặp với phân phối bình thường nếu bạn chuyển đổi nó. Nếu phân phối của bạn không bình thường, kết quả bạn sẽ nhận được sẽ kém hơn so với trường hợp khi nó bình thường, như đã nêu ở đây ...

  • Bạn có thể chuyển đổi phân phối của bạn nếu bạn cần.
  • Bạn có thể chọn PCA và sử dụng Phân tích thành phần độc lập (ICA) thay thế.

Nếu bạn đọc tài liệu tham khảo trong câu trả lời đầu tiên, trong phần Phụ lục, nó nói rằng giả định là phân phối chuẩn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.