Các bước thích hợp để tiền xử lý dạng sóng của tôi để thực hiện phân tích thành phần độc lập (ICA) sau này là gì? Tôi hiểu cách thức, mặc dù giải thích thêm về điều đó không gây tổn thương, nhưng tôi quan tâm nhiều hơn đến lý do tại sao.
Các bước thích hợp để tiền xử lý dạng sóng của tôi để thực hiện phân tích thành phần độc lập (ICA) sau này là gì? Tôi hiểu cách thức, mặc dù giải thích thêm về điều đó không gây tổn thương, nhưng tôi quan tâm nhiều hơn đến lý do tại sao.
Câu trả lời:
Phân tích thành phần độc lập (ICA) được sử dụng để tách một tuyến tính hỗn hợp độc lập về mặt thống kê và quan trọng nhất, không Gaussian † thành phần vào thành phần của nó. Mô hình chuẩn cho ICA không tiếng ồn là
Trong đó là vectơ quan sát hoặc dữ liệu, s là tín hiệu nguồn / thành phần gốc (không phải Gaussian) và A là vectơ biến đổi xác định sự pha trộn tuyến tính của các tín hiệu cấu thành. Thông thường, A và s không xác định.
Có hai chiến lược tiền xử lý chính trong ICA, đó là định tâm và làm trắng / đánh bóng. Những lý do chính để xử lý trước là:
Từ sự giới thiệu của G. Li và J. Zhang, "Sphering và các thuộc tính của nó", Tạp chí Thống kê Ấn Độ, Vol. 60, Sê-ri A, Phần I, trang 119-133, 1998:
Các ngoại lệ, cụm hoặc các loại nhóm khác và nồng độ gần các đường cong hoặc không nằm trên bề mặt có lẽ là các tính năng quan trọng mà các nhà phân tích dữ liệu quan tâm. Nói chung, chúng không thể có được thông qua kiến thức đơn thuần về trung bình mẫu và ma trận hiệp phương sai. Trong những trường hợp này, mong muốn phân tách o information thông tin chứa trong trung bình và ma trận hiệp phương sai và buộc chúng ta phải kiểm tra các khía cạnh của các tập dữ liệu của chúng ta ngoài những bản chất được hiểu rõ. Định tâm và hình cầu là một cách tiếp cận đơn giản và trực quan giúp loại bỏ thông tin hiệp phương sai và giúp làm nổi bật các cấu trúc vượt ra ngoài tương quan tuyến tính và hình dạng elip, do đó thường được thực hiện trước khi khám phá hiển thị hoặc phân tích các tập dữ liệu
1. Định tâm:
Định tâm là một thao tác rất đơn giản và chỉ đơn giản là trừ trung bình . Trong thực tế, bạn sử dụng giá trị trung bình mẫu và tạo một vectơ mới x c = x - ¯ x , trong đó ¯ x là giá trị trung bình của dữ liệu. Về mặt hình học, trừ đi giá trị trung bình tương đương với việc dịch tâm của tọa độ sang gốc tọa độ. Giá trị trung bình luôn có thể được thêm lại vào kết quả cuối cùng (điều này là có thể bởi vì phép nhân ma trận là phân phối).
2. Làm trắng da:
Whitening là một sự chuyển đổi có thể chuyển đổi dữ liệu như vậy mà nó có một ma trận hiệp phương sai danh tính, tức là . Thông thường, bạn làm việc với ma trận hiệp phương sai mẫu,
Trong đó chỉ là trình giữ chỗ lười biếng của tôi cho hệ số chuẩn hóa phù hợp (tùy thuộc vào kích thước của x ). Một vectơ trắng mới được tạo ra là
s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]
Nếu, sau khi biến đổi, có các giá trị riêng gần bằng 0, thì chúng có thể được loại bỏ một cách an toàn vì chúng chỉ là nhiễu và sẽ chỉ cản trở ước tính do "lớp học quá mức".
3. Tiền xử lý khác
Có thể có các bước tiền xử lý khác liên quan đến một số ứng dụng cụ thể không thể đưa ra câu trả lời. Ví dụ: tôi đã thấy một vài bài viết sử dụng nhật ký của chuỗi thời gian và một vài bài viết khác lọc chuỗi thời gian. Mặc dù nó có thể phù hợp với ứng dụng / điều kiện cụ thể của họ, nhưng kết quả không mang đến tất cả các lĩnh vực.
† Tôi tin rằng nó có thể sử dụng ICA nếu tối đa là một trong những thành phần là Gaussian, mặc dù tôi không thể tìm thấy một tài liệu tham khảo cho việc này ngay bây giờ.
{-1,1}
NormalDistribution[]
Đầu tiên là mật độ khớp cho hai Gaussian không tương thích, thứ hai là biến đổi và thứ ba là sau khi làm trắng. Trong thực tế chỉ có thể nhìn thấy bước 2 và 3.