Sử dụng bản đồ tự tổ chức để giảm kích thước

8

Trong vài ngày qua, tôi đã thực hiện một số nghiên cứu về bản đồ tự tổ chức cho một dự án ở trường. Tôi đã hiểu rằng các bản đồ tự tổ chức có thể được sử dụng để giảm tính chiều của dữ liệu của bạn. Tuy nhiên, tôi không hiểu làm thế nào điều này hoạt động. Ví dụ: giả sử bạn có một mạng lưới nơ-ron 10 x 10 trong SOM và đầu vào của bạn là 25 chiều. Vì vậy, theo hiểu biết của tôi, bạn sẽ tạo ra một vectơ đặc trưng cho mỗi nơ ron cũng là 25D. Khi đào tạo xong, bạn kết thúc với 100 vectơ 25D. Làm thế nào là chính xác làm giảm kích thước của dữ liệu? Tôi có nên quan tâm đến vị trí của các tế bào thần kinh?

EDIT: Tôi đã đọc câu hỏi Giảm kích thước bằng bản đồ tự tổ chức nhưng tôi không cảm thấy nó trả lời câu hỏi mà tôi có.

data-transformation dimensionality-reduction self-organizing-maps

— người dùng1231745
nguồn

12

Bản đồ tự tổ chức (SOM) là một lưới lấp đầy không gian cung cấp việc giảm kích thước dữ liệu rời rạc .

Bạn bắt đầu với một không gian các điểm dữ liệu theo chiều cao và một lưới tùy ý nằm trong không gian đó. Lưới có thể có bất kỳ kích thước nào, nhưng thường nhỏ hơn kích thước của tập dữ liệu của bạn và thường là 2D, vì điều đó dễ hình dung.

Đối với mỗi mốc thời gian trong tập dữ liệu của bạn, bạn tìm điểm lưới gần nhất và "kéo" điểm lưới đó về phía tập dữ liệu. Bạn cũng kéo từng điểm lưới lân cận về phía vị trí mới của điểm lưới đầu tiên. Khi bắt đầu quá trình, bạn kéo rất nhiều hàng xóm về phía điểm dữ liệu. Sau đó trong quá trình, khi lưới của bạn bắt đầu lấp đầy khoảng trống, bạn di chuyển ít hàng xóm hơn và điều này hoạt động như một loại tinh chỉnh. Quá trình này dẫn đến một tập hợp các điểm trong không gian dữ liệu phù hợp với hình dạng của không gian một cách hợp lý, nhưng cũng có thể được coi là một lưới có kích thước thấp hơn.

Đây là quá trình được giải thích tốt bởi hai hình ảnh từ trang 1468 của bài báo năm 1990 của Kohonen :

Hình ảnh này cho thấy bản đồ một chiều trong phân bố đồng đều trong một hình tam giác. Lưới bắt đầu như một mớ hỗn độn ở trung tâm, và dần dần được kéo vào một đường cong lấp đầy tam giác một cách hợp lý, với số lượng điểm lưới:

SOM một chiều

Phần bên trái của hình ảnh thứ hai này cho thấy lưới SOM 2D lấp đầy không gian được xác định bởi hình dạng xương rồng ở bên trái:

Xương rồng 2D SOM

Có một video về quá trình SOM sử dụng lưới 2D trong không gian 2D và trong không gian 3D trên youtube.

Bây giờ mỗi một điểm dữ liệu gốc trong không gian có một hàng xóm gần nhất, được gán. Do đó, lưới là trung tâm của cụm các điểm dữ liệu. Lưới cung cấp giảm kích thước.

Dưới đây là so sánh về giảm kích thước bằng phân tích thành phần chính (PCA), từ trang SOM trên wikipedia :

Giảm kích thước SOM từ en.wikipedia.org/wiki/File:SOMsPCA.PNG

Ngay lập tức có thể thấy rằng SOM một chiều cung cấp dữ liệu phù hợp hơn nhiều với dữ liệu, giải thích hơn 93% phương sai, so với 77% cho PCA. Tuy nhiên, theo như tôi biết, không có cách nào dễ dàng để giải thích phương sai còn lại, như với PCA (sử dụng các kích thước phụ), vì không có cách nào gọn gàng để tháo dữ liệu xung quanh lưới SOM rời rạc.

— hư 101
nguồn

2

Mặc dù thực tế là bạn kết thúc với nhiều nút hơn kích thước tính năng, bạn vẫn giảm tính chiều. Hãy nhớ rằng ban đầu bạn có một không gian 25 chiều và bây giờ, bạn có 25 chiều đó được chiếu chỉ trong 2 chiều. Thay vì đại diện cho không gian 25 chiều liên tục đầy đủ, SOM cung cấp cho bạn những điểm 'quan trọng nhất' trong không gian đó.

— felipeduque
nguồn