Tôi đã học về PCA một vài bài giảng trước đây trong lớp và bằng cách tìm hiểu thêm về khái niệm hấp dẫn này, tôi đã biết về PCA thưa thớt.
Tôi muốn hỏi, nếu tôi không sai thì đây là PCA thưa thớt: Trong PCA, nếu bạn có điểm dữ liệu với biến p , bạn có thể biểu thị từng điểm dữ liệu trong không gian p chiều trước khi áp dụng PCA. Sau khi áp dụng PCA, bạn lại có thể biểu diễn nó trong cùng một không gian thứ nguyên, nhưng, lần này, thành phần chính đầu tiên sẽ chứa nhiều phương sai nhất, phần thứ hai sẽ chứa hướng phương sai thứ hai, v.v. Vì vậy, bạn có thể loại bỏ một vài thành phần chính cuối cùng, vì chúng sẽ không gây mất dữ liệu nhiều và bạn có thể nén dữ liệu. Đúng?
PCA thưa thớt đang chọn các thành phần chính sao cho các thành phần này chứa ít giá trị khác không trong các hệ số vectơ của chúng.
Làm thế nào điều này được cho là để giúp bạn giải thích dữ liệu tốt hơn? Bất cứ ai có thể đưa ra một ví dụ?