Bản đồ tự tổ chức (SOM) là một lưới lấp đầy không gian cung cấp việc giảm kích thước dữ liệu rời rạc .
Bạn bắt đầu với một không gian các điểm dữ liệu theo chiều cao và một lưới tùy ý nằm trong không gian đó. Lưới có thể có bất kỳ kích thước nào, nhưng thường nhỏ hơn kích thước của tập dữ liệu của bạn và thường là 2D, vì điều đó dễ hình dung.
Đối với mỗi mốc thời gian trong tập dữ liệu của bạn, bạn tìm điểm lưới gần nhất và "kéo" điểm lưới đó về phía tập dữ liệu. Bạn cũng kéo từng điểm lưới lân cận về phía vị trí mới của điểm lưới đầu tiên. Khi bắt đầu quá trình, bạn kéo rất nhiều hàng xóm về phía điểm dữ liệu. Sau đó trong quá trình, khi lưới của bạn bắt đầu lấp đầy khoảng trống, bạn di chuyển ít hàng xóm hơn và điều này hoạt động như một loại tinh chỉnh. Quá trình này dẫn đến một tập hợp các điểm trong không gian dữ liệu phù hợp với hình dạng của không gian một cách hợp lý, nhưng cũng có thể được coi là một lưới có kích thước thấp hơn.
Đây là quá trình được giải thích tốt bởi hai hình ảnh từ trang 1468 của bài báo năm 1990 của Kohonen :
Hình ảnh này cho thấy bản đồ một chiều trong phân bố đồng đều trong một hình tam giác. Lưới bắt đầu như một mớ hỗn độn ở trung tâm, và dần dần được kéo vào một đường cong lấp đầy tam giác một cách hợp lý, với số lượng điểm lưới:
Phần bên trái của hình ảnh thứ hai này cho thấy lưới SOM 2D lấp đầy không gian được xác định bởi hình dạng xương rồng ở bên trái:
Có một video về quá trình SOM sử dụng lưới 2D trong không gian 2D và trong không gian 3D trên youtube.
Bây giờ mỗi một điểm dữ liệu gốc trong không gian có một hàng xóm gần nhất, được gán. Do đó, lưới là trung tâm của cụm các điểm dữ liệu. Lưới cung cấp giảm kích thước.
Dưới đây là so sánh về giảm kích thước bằng phân tích thành phần chính (PCA), từ trang SOM trên wikipedia :
Ngay lập tức có thể thấy rằng SOM một chiều cung cấp dữ liệu phù hợp hơn nhiều với dữ liệu, giải thích hơn 93% phương sai, so với 77% cho PCA. Tuy nhiên, theo như tôi biết, không có cách nào dễ dàng để giải thích phương sai còn lại, như với PCA (sử dụng các kích thước phụ), vì không có cách nào gọn gàng để tháo dữ liệu xung quanh lưới SOM rời rạc.