Làm thế nào chính xác là PCA thưa thớt tốt hơn PCA?


24

Tôi đã học về PCA một vài bài giảng trước đây trong lớp và bằng cách tìm hiểu thêm về khái niệm hấp dẫn này, tôi đã biết về PCA thưa thớt.

Tôi muốn hỏi, nếu tôi không sai thì đây là PCA thưa thớt: Trong PCA, nếu bạn có điểm dữ liệu với biến p , bạn có thể biểu thị từng điểm dữ liệu trong không gian p chiều trước khi áp dụng PCA. Sau khi áp dụng PCA, bạn lại có thể biểu diễn nó trong cùng một không gian thứ nguyên, nhưng, lần này, thành phần chính đầu tiên sẽ chứa nhiều phương sai nhất, phần thứ hai sẽ chứa hướng phương sai thứ hai, v.v. Vì vậy, bạn có thể loại bỏ một vài thành phần chính cuối cùng, vì chúng sẽ không gây mất dữ liệu nhiều và bạn có thể nén dữ liệu. Đúng?npp

PCA thưa thớt đang chọn các thành phần chính sao cho các thành phần này chứa ít giá trị khác không trong các hệ số vectơ của chúng.

Làm thế nào điều này được cho là để giúp bạn giải thích dữ liệu tốt hơn? Bất cứ ai có thể đưa ra một ví dụ?


Xin chào @GrowinMan! Bạn đã thấy câu trả lời của tôi cho câu hỏi này? Bạn có nghĩ rằng nó trả lời nó? Nếu không, vui lòng yêu cầu bất kỳ làm rõ, hoặc có thể xem xét chỉnh sửa câu hỏi của bạn để làm cho nó chính xác hơn. Nếu có, sau đó xem xét nâng cấp & "chấp nhận" nó bằng cách nhấp vào một đánh dấu màu xanh lá cây gần đó. Tôi nhận thấy rằng bạn không có phiếu bầu và không có chủ đề được chấp nhận ở đây trên CrossValidated.
amip nói Phục hồi lại

@amoeba Cảm ơn bạn đã chỉ ra điều đó. Chưa đăng nhập được một lúc và tôi cũng hơi mất liên lạc với máy học. Tôi chắc chắn sẽ đọc lại câu trả lời của bạn và đánh dấu câu trả lời ở đây vào cuối tuần
GrowinMan

Không vấn đề gì. Tôi đã vô tình bắt gặp chủ đề cũ này và nghĩ đến việc thả bạn xuống một dòng.
amip nói rằng Phục hồi lại

Xin chào @GrowinMan! :-) Đã qua chủ đề cũ này một lần nữa. Nếu bạn vẫn cảm thấy câu hỏi này chưa được giải quyết, xin vui lòng yêu cầu làm rõ. Mặt khác, hãy xem xét nâng cấp & "chấp nhận" một trong những câu trả lời bằng cách nhấp vào một đánh dấu màu xanh lá cây gần đó. Tôi nhận thấy rằng bạn không có phiếu bầu và không có chủ đề được chấp nhận ở đây trên CrossValidated.
amip nói rằng Phục hồi Monica

Câu trả lời:


29

Việc PCA thưa thớt có dễ diễn giải hơn PCA tiêu chuẩn hay không, tùy thuộc vào bộ dữ liệu bạn đang điều tra. Đây là cách tôi nghĩ về nó: đôi khi người ta quan tâm nhiều hơn đến các phép chiếu PCA (biểu diễn dữ liệu theo chiều thấp của dữ liệu) và đôi khi - trong các trục chính; chỉ trong trường hợp sau, PCA thưa thớt có thể có bất kỳ lợi ích nào cho việc giải thích. Hãy để tôi đưa ra một vài ví dụ.

Tôi ví dụ như làm việc với dữ liệu thần kinh (ghi đồng thời nhiều nơ ron) và đang áp dụng PCA và / hoặc các kỹ thuật giảm kích thước có liên quan để có được biểu hiện chiều thấp của hoạt động dân số thần kinh. Tôi có thể có 1000 nơ-ron (tức là dữ liệu của tôi sống trong không gian 1000 chiều) và muốn chiếu nó lên ba trục chính hàng đầu. Những trục này là gì, hoàn toàn không liên quan đến tôi và tôi không có ý định "diễn giải" những trục này theo bất kỳ cách nào. Điều tôi quan tâm, là trình chiếu 3D (vì hoạt động phụ thuộc vào thời gian, tôi có được một quỹ đạo trong không gian 3D này). Vì vậy, tôi ổn nếu mỗi trục có tất cả 1000 hệ số khác không.

Mặt khác, ai đó có thể đang làm việc với nhiều dữ liệu "hữu hình" hơn, trong đó các kích thước riêng lẻ có ý nghĩa rõ ràng (không giống như các nơ-ron riêng lẻ ở trên). Vd Trong trường hợp này, người ta thực sự có thể quan tâm đến các trục chính hàng đầu, bởi vì người ta có thể muốn nói điều gì đó: nhìn này, trục chính thứ 1 tương ứng với "sự huyền ảo" của chiếc xe (tôi hoàn toàn làm điều này ngay bây giờ). Nếu phép chiếu thưa thớt, việc giải thích như vậy thường sẽ dễ đưa ra hơn, bởi vì nhiều biến sẽ có hệ số và do đó rõ ràng là không liên quan đến trục cụ thể này. Trong trường hợp PCA tiêu chuẩn, người ta thường nhận được các hệ số khác không cho tất cả các biến.0

Bạn có thể tìm thấy nhiều ví dụ và một số thảo luận về trường hợp sau trong bài báo PCA thưa thớt năm 2006 của Zou et al. Tuy nhiên, sự khác biệt giữa trường hợp trước và trường hợp sau, tôi không thấy được thảo luận rõ ràng ở bất cứ đâu (mặc dù có lẽ là như vậy).


3
Đây là một lời giải thích tuyệt vời. Một ví dụ khác về dữ liệu "hữu hình" của bạn sẽ là Một khảo sát có nhiều câu hỏi và bạn muốn biết câu hỏi nào trong khảo sát là quan trọng nhất và có lẽ một số kết hợp của chúng thực sự đang hỏi về một chủ đề.
bdeonovic

1

Vì vậy, bạn có thể loại bỏ một vài thành phần chính cuối cùng, vì chúng sẽ không gây mất dữ liệu nhiều và bạn có thể nén dữ liệu. Đúng?

NV1,V2,,VNNPC1,PC2,,PCNViPCi

PCiVj,Vl,

(PCi,PCj)N


Làm sao!? Tôi không thấy làm thế nào có thể dễ dàng diễn giải trong trường hợp này trái ngược với khi các Thành phần chính không thưa thớt.
GrowinMan

2
Cách tôi nghĩ về điều này là chúng ta thường thực hiện phân cụm biến đổi trước PC để làm cho kết quả dễ hiểu hơn. PC thưa thớt kết hợp phân cụm biến đổi và PC thành một bước, đòi hỏi ít quyết định hơn về phía nhà phân tích.
Frank Harrell

1

Để hiểu được lợi thế của sự thưa thớt trong PCA, bạn cần đảm bảo rằng bạn biết sự khác biệt giữa "tải" và "biến" (với tôi những tên này có phần tùy ý, nhưng điều đó không quan trọng).

Giả sử bạn có ma trận dữ liệu nxp X , trong đó n là số lượng mẫu. SVD của X = USV ' , cung cấp cho bạn ba ma trận. Kết hợp hai Z = US đầu tiên cung cấp cho bạn ma trận các Thành phần chính. Giả sử thứ hạng giảm của bạn là k , thì Znxk . Z về cơ bản là ma trận dữ liệu của bạn sau khi giảm kích thước. Trong lịch sử,

Các mục của các thành phần chính của bạn (còn gọi là Z = US ) được gọi là các biến.

Mặt khác, V (là pxk ) chứa các vectơ tải chính và các mục nhập của nó được gọi là các tải trọng chính. Với các thuộc tính của PCA, dễ dàng chỉ ra rằng Z = XV . Điều này có nghĩa rằng:

Các thành phần chính được lấy bằng cách sử dụng các tải trọng chính làm hệ số trong tổ hợp tuyến tính của ma trận dữ liệu X của bạn .

Bây giờ những định nghĩa này đã được đưa ra, chúng ta sẽ xem xét sự thưa thớt. Hầu hết các giấy tờ (hoặc ít nhất là hầu hết mà tôi gặp phải), thực thi độ thưa thớt trên các tải trọng chính (còn gọi là V ). Ưu điểm của sự thưa thớt là

một V thưa thớt sẽ cho chúng ta biết các biến nào (từ không gian tính năng p -dimensional gốc ) đáng để lưu giữ. Điều này được gọi là khả năng giải thích.

Ngoài ra còn có cách giải thích cho việc thực thi thưa thớt trên các mục của Z , mà tôi đã thấy mọi người gọi là "PCA biến thưa thớt" ", nhưng điều đó ít phổ biến hơn và thành thật mà nói tôi đã nghĩ về nó rất nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.