FA, PCA và ICA, tất cả đều 'liên quan', nhiều như cả ba trong số họ tìm kiếm các vectơ cơ sở mà dữ liệu được chiếu theo, sao cho bạn tối đa hóa các tiêu chí chèn - ở đây. Hãy nghĩ về các vectơ cơ sở như chỉ gói gọn các kết hợp tuyến tính.
Z2NNw=[0.1−4]y
y=wTZ
y1N
Vậy những tiêu chí đó là gì?
Tiêu chí thứ hai:
Trong PCA, bạn đang tìm các vectơ cơ sở 'giải thích rõ nhất' phương sai của dữ liệu của bạn. Vectơ cơ sở đầu tiên (tức là xếp hạng cao nhất) sẽ là một vectơ phù hợp nhất với tất cả các phương sai từ dữ liệu của bạn. Cái thứ hai cũng có tiêu chí này, nhưng phải trực giao với cái thứ nhất, vân vân và vân vân. (Hóa ra các vectơ cơ sở cho PCA không là gì ngoài các hàm riêng của ma trận hiệp phương sai dữ liệu của bạn).
Trong FA, có sự khác biệt giữa nó và PCA, bởi vì FA là thế hệ, trong khi PCA thì không. Tôi đã thấy FA được mô tả là 'PCA có tiếng ồn', trong đó 'tiếng ồn' được gọi là 'các yếu tố cụ thể'. Tất cả đều giống nhau, kết luận chung là PCA và FA dựa trên thống kê bậc hai, (hiệp phương sai), và không có gì ở trên.
Tiêu chí đặt hàng cao hơn:
Trong ICA, bạn lại tìm thấy các vectơ cơ sở, nhưng lần này, bạn muốn các vectơ cơ sở cho kết quả, sao cho vectơ kết quả này là một trong những thành phần độc lập của dữ liệu gốc. Bạn có thể làm điều này bằng cách tối đa hóa giá trị tuyệt đối của kurtosis bình thường hóa - một thống kê bậc 4. Đó là, bạn chiếu dữ liệu của mình lên một số vectơ cơ sở và đo lường mức độ tổn thương của kết quả. Bạn thay đổi vectơ cơ sở của mình một chút, (thường là thông qua độ dốc), sau đó đo lại mức độ tổn thương một lần nữa, v.v ... Cuối cùng, bạn sẽ xảy ra một vectơ cơ sở mang lại cho bạn kết quả có khả năng gây tổn thương cao nhất và đây là sự độc lập của bạn thành phần.
Sơ đồ trên cùng có thể giúp bạn hình dung nó. Bạn có thể thấy rõ các vectơ ICA tương ứng với các trục của dữ liệu, (độc lập với nhau), trong khi các vectơ PCA cố gắng tìm các hướng trong đó phương sai được tối đa hóa. (Hơi giống kết quả).
Nếu trong sơ đồ trên cùng, các vectơ PCA trông giống như chúng gần như tương ứng với các vectơ ICA, thì đó chỉ là sự trùng hợp. Đây là một ví dụ khác về dữ liệu trộn và ma trận trộn khác nhau, nơi chúng rất khác nhau. ;-)