Học sâu hình học (GDL) là gì? Nó khác với học sâu như thế nào? Tại sao chúng ta cần GDL? Một số ứng dụng của GDL là gì?
Học sâu hình học (GDL) là gì? Nó khác với học sâu như thế nào? Tại sao chúng ta cần GDL? Một số ứng dụng của GDL là gì?
Câu trả lời:
Để hoàn thành câu trả lời đầu tiên theo định hướng đồ thị, tôi sẽ viết một chút về học sâu về đa tạp, khá chung chung về GDL nhờ vào bản chất của đa tạp.
Lưu ý rằng việc mô tả GDL thông qua giải thích về DL trên biểu đồ và đa tạp, đối lập với DL trên các lĩnh vực euclide, xuất phát từ bài báo 2017 Tìm hiểu sâu về hình học: vượt xa dữ liệu Euclide (bài viết này rất tuyệt vời trong việc làm rõ cả trực giác và toán học của những gì tôi đang viết).
Như bài viết được trích dẫn trước đây đặt nó:
Một cách thô bạo, một đa tạp là một không gian mang tính địa phương Euclide. Một trong những ví dụ đơn giản nhất là bề mặt hình cầu mô hình hành tinh của chúng ta: xung quanh một điểm, nó dường như là mặt phẳng, khiến nhiều thế hệ con người tin vào sự bằng phẳng của Trái đất. Nói một cách chính thức, một đa chiều d (khác biệt) X là một không gian tôpô trong đó mỗi điểm x có một vùng lân cận tương đương về mặt cấu trúc (không đồng nhất) với không gian Euclide d chiều, được gọi là không gian tiếp tuyến.
Tốt giải thích không kỹ thuật khác về stats.stackexchange
Các ví dụ Wikipedia khác để phát triển sự hiểu biết không quá trừu tượng
Rất ngắn gọn, đó là một bộ toán học thú vị để làm việc (các loại khác nhau tồn tại, xem các bài viết ở cuối câu trả lời này để sử dụng đa tạp liên quan đến DL). Bằng cách làm việc, bạn thường có thể hiểu rằng bạn giới hạn các tham số mạng thần kinh với đa tạp mà bạn đã chọn (ví dụ: đào tạo với các tham số bị ràng buộc trên một siêu cầu, trong số các ví dụ về giấy địa lý ).
Dữ liệu của bạn cũng có thể được thể hiện nhờ vào một đa tạp thực tế. Ví dụ: bạn có thể chọn làm việc trên hình ảnh và video bằng cách biểu diễn các mẫu bằng cách sử dụng ma trận xác định đối xứng (SPD) đối xứng (xem bài viết này ), không gian của ma trận SPD là một đa tạp.
Xác định một bộ rõ ràng hơn / thích nghi tốt hơn (hiểu rằng đó là một loại ràng buộc!) Để tìm hiểu các tham số và tính năng có thể giúp đơn giản hơn để hiểu chính thức mô hình của bạn đang làm gì và có thể dẫn đến kết quả tốt hơn. Tôi thấy đó là một phần trong nỗ lực chính thức hóa học tập sâu. Người ta có thể nói rằng bạn đang tìm kiếm hình học thông tin tốt nhất cho nhiệm vụ của mình , một trong đó nắm bắt tốt nhất các thuộc tính phân phối dữ liệu mong muốn. Để phát triển trực giác này, hãy xem xét sự tương tự của hệ mặt trời để tìm hiểu đa dạng về hạt nhân Kaggle này :
Có lẽ một điểm tương đồng tốt ở đây là hệ mặt trời: bề mặt của các hành tinh của chúng ta là các đa tạp mà chúng ta quan tâm, mỗi cái cho một chữ số. Bây giờ hãy nói rằng bạn đang ở trên bề mặt trái đất là một đa tạp 2 chiều và bạn bắt đầu di chuyển theo một hướng ngẫu nhiên (giả sử trọng lực không tồn tại và bạn có thể đi qua các vật thể rắn). Nếu bạn không hiểu cấu trúc của trái đất, bạn sẽ nhanh chóng thấy mình trong không gian hoặc bên trong trái đất. Nhưng nếu bạn thay vào đó di chuyển trong tọa độ trái đất (nói hình cầu), bạn sẽ ở trên bề mặt và nhìn thấy tất cả những thứ tuyệt vời.
Sự tương tự này khiến chúng ta nhớ đến mô hình hành tinh bề mặt hình cầu từ bài báo của Bronstein đã được trích dẫn ở trên. Bài viết này cũng mô tả một trường hợp điển hình mà đa tạp rất thú vị: trong đó các biểu đồ (ví dụ khác về GDL / DL trên dữ liệu phi euclide) tốt hơn trong việc xử lý dữ liệu từ các mạng xã hội hoặc cảm biến, đa tạp rất tốt trong việc mô hình hóa các đối tượng 3D có các đặc tính như kết cấu màu trong tầm nhìn máy tính.
Tôi sẽ khuyên bạn nên đọc các bài báo liên quan đến geomstats , một công việc tuyệt vời trong việc hiển thị nó là gì và làm thế nào nó có thể được sử dụng, cùng với các mã ví dụ (ví dụ: MNIST trên mã ví dụ đa dạng ở đây ). Thư viện này thực hiện đa tạp và các số liệu liên quan trên Keras. Lựa chọn số liệu là điều cần thiết để hiểu điểm làm việc trên đa tạp: đó là vì bạn cần làm việc trên một tập toán học thích nghi ( nghĩa là có các thuộc tính phù hợp) với định nghĩa khoảng cách phù hợp ( để số đo thực sự có ý nghĩa khi xem xét vấn đề bạn đang cố gắng giải quyết ) rằng bạn chuyển sang làm việc trên đa tạp.
Nếu bạn muốn tìm hiểu chi tiết và ví dụ về học sâu trên đa tạp thì đây là một số bài viết:
TL; DR: bạn cần một số liệu để học máy (nếu không, làm thế nào bạn có thể đánh giá số lượng bạn thực sự đã học!)
Vẫn dựa trên bài viết của Bronstein :
Trên mỗi không gian tiếp tuyến, chúng tôi xác định một sản phẩm bên trong [...]. Sản phẩm bên trong này được gọi là số liệu Riemannian trong hình học vi phân và cho phép thực hiện các phép đo cục bộ về góc, khoảng cách và khối lượng. Một đa tạp được trang bị một số liệu được gọi là đa tạp Riemannian.
Vẫn dựa trên bài viết của Bronstein :
một đa tạp Riemannian có thể được nhận ra như là một tập hợp con của không gian Euclide (trong trường hợp đó được cho là được nhúng trong không gian đó) bằng cách sử dụng cấu trúc của không gian Euclide để tạo ra một số liệu Riemannian.
Tôi để lại chi tiết cho bài báo, nếu không câu trả lời này sẽ không bao giờ kết thúc.
Sẽ chỉ trả lời một khi tôi nghĩ rằng tôi đã tìm thấy một câu trả lời tương đối tốt, vì vậy sẽ không trả lời mọi thứ cùng một lúc.
Tôi không nghĩ vậy, nó không chỉ như vậy . Tôi chưa thấy bất kỳ ràng buộc giảm kích thước nào (chưa?) Trong các bài báo tôi đã đọc (xem lại geomstats).
Trong ví dụ mã địa lý hypersphere / MNIST , bạn có thể thấy kích thước đa tạp được chọn hypersphere_dimension = 17
. Vì chúng tôi đang làm việc với dữ liệu MNIST, tôi đoán điều này có nghĩa là giảm kích thước trong trường hợp cụ thể này. Tôi thừa nhận tôi sẽ cần kiểm tra chính xác kích thước đó ngụ ý gì trên kiến trúc mạng thần kinh, tôi chưa thảo luận về sự hiểu biết của tôi về điều này.
Tôi vẫn đang phát triển sự hiểu biết toán học nghiêm ngặt hơn về đa tạp, và sẽ cập nhật bài đăng này để làm rõ thêm cần thiết: chính xác những gì có thể được coi là đa tạp trong bối cảnh học sâu truyền thống, tại sao chúng ta sử dụng từ đa tạp khi nói về trạng thái ẩn của bộ mã hóa tự động (xem phần nhân Kaggle được trích dẫn trước đó trích dẫn cuốn sách của Goodfellow về điều này). Tất cả điều này nếu câu trả lời hoàn toàn rõ ràng không xuất hiện ở đây trước đây!
Bài viết Học sâu về hình học: vượt ra ngoài dữ liệu Euclide (của Michael M. Bronstein, Joan Bruna, Yann LeCun, Arthur Szlam, Pierre Vandergheynst) cung cấp một cái nhìn tổng quan về lĩnh vực học tập tương đối mới này. Nó trả lời tất cả các câu hỏi được hỏi ở trên (và nhiều hơn nữa). Nếu bạn quen thuộc với việc học sâu, đồ thị, đại số tuyến tính và phép tính, bạn sẽ có thể theo dõi bài viết này.
Học sâu hình học (GDL) là gì?
Bài viết này mô tả GDL như sau
Học sâu hình học là một thuật ngữ ô cho các kỹ thuật mới nổi đang cố gắng khái quát hóa (cấu trúc) các mô hình thần kinh sâu cho các miền phi Euclide như đồ thị và đa tạp.
Vì vậy, các đầu vào cho các mô hình GDL này là các biểu đồ (hoặc biểu diễn của các biểu đồ), hoặc, nói chung, bất kỳ dữ liệu phi Euclide nào . Để cụ thể hơn, đầu vào của các mô hình này (ví dụ: mạng nơ ron đồ thị ) là vectơ đặc trưng được liên kết với các nút của đồ thị và ma trận mô tả cấu trúc đồ thị (ví dụ ma trận kề của đồ thị).
Tại sao ví dụ như đồ thị dữ liệu phi Euclide?
Biểu đồ là một cấu trúc phi Euclide vì ví dụ khoảng cách giữa các nút không được xác định rõ. Có, bạn có thể có các biểu đồ có trọng số liên quan đến các cạnh, nhưng không phải tất cả các biểu đồ đều có thuộc tính này.
GDL giải quyết những vấn đề gì?
Trong GDL, có hai loại vấn đề thường được giải quyết:
Các lớp vấn đề này có liên quan, với điều kiện là cấu trúc của biểu đồ áp đặt các thuộc tính nhất định lên các hàm có thể được xác định trên nó. Hơn nữa, các tính chất của các chức năng này cũng có thể truyền đạt thông tin về cấu trúc của biểu đồ.
Các ứng dụng của GDL là gì?
Một ví dụ về ứng dụng phát sinh loại dữ liệu (đồ thị) này trong bối cảnh của các mạng xã hội, nơi mỗi người dùng có thể được liên kết với một đỉnh của biểu đồ xã hội và các đặc điểm (hoặc tính năng) của mỗi người dùng (ví dụ: số lượng bạn bè ) có thể được biểu diễn dưới dạng một vectơ đặc trưng (sau đó có thể được liên kết với đỉnh tương ứng của biểu đồ). Trong ngữ cảnh này, mục tiêu có thể là xác định các nhóm người dùng khác nhau trong mạng xã hội (nghĩa là phân cụm).
Tại sao chúng ta không thể đơn giản sử dụng các phương pháp học sâu (như CNN) khi dữ liệu không phải là Euclide?
Có một số vấn đề phát sinh khi xử lý dữ liệu phi Euclide. Ví dụ, các hoạt động như tích chập không (thường) được xác định trên dữ liệu phi Euclide. Cụ thể hơn, vị trí tương đối của các nút không được xác định trên biểu đồ (nhưng điều này sẽ được yêu cầu để thực hiện thao tác tích chập thông thường): nói cách khác, việc nói về một đỉnh là ví dụ bên trái của một đỉnh khác là vô nghĩa. Trong thực tế, điều đó có nghĩa là chúng ta không thể đơn giản sử dụng CNN thông thường khi chúng ta được cung cấp dữ liệu phi Euclide. Đã có những nỗ lực để khái quát hóa hoạt động tích chập thành các biểu đồ (hoặc để tính gần đúng nó). Lĩnh vực này vẫn còn khá mới, vì vậy chắc chắn sẽ có những bước phát triển và đột phá mới.