Trên bài đăng này , bạn có thể đọc tuyên bố:
Các mô hình thường được biểu diễn bằng các điểm trên đa tạp chiều hữu hạn.
Trên hình học và thống kê khác biệt của Michael K Murray và John W Rice, các khái niệm này được giải thích bằng văn xuôi có thể đọc được thậm chí bỏ qua các biểu thức toán học. Thật không may, có rất ít minh họa. Điều tương tự cũng xảy ra với bài đăng này trên MathOverflow.
Tôi muốn yêu cầu trợ giúp với một đại diện trực quan để phục vụ như một bản đồ hoặc động lực hướng tới một sự hiểu biết chính thức hơn về chủ đề này.
Các điểm trên đa tạp là gì? Trích dẫn này từ tìm kiếm trực tuyến này , dường như chỉ ra rằng nó có thể là các điểm dữ liệu hoặc tham số phân phối:
Thống kê về đa tạp và hình học thông tin là hai cách khác nhau trong đó hình học vi phân đáp ứng thống kê. Mặc dù trong thống kê về đa tạp, đó là dữ liệu nằm trên đa tạp, trong hình học thông tin, dữ liệu nằm trong , nhưng họ tham số hóa của các hàm mật độ xác suất quan tâm được coi là đa tạp. Đa tạp như vậy được gọi là đa tạp thống kê.
Tôi đã vẽ sơ đồ này lấy cảm hứng từ lời giải thích về không gian tiếp tuyến ở đây :
[ Chỉnh sửa để phản ánh nhận xét bên dưới về : ] Trên một đa tạp, , không gian tiếp tuyến là tập hợp của tất cả các dẫn xuất có thể ("vận tốc") tại một điểm liên kết với mọi đường cong có thể trên đa tạp chạy quaĐây có thể được xem là một tập hợp các bản đồ từ mọi đường cong đi qua tức là được định nghĩa là thành phần , với biểu thị một đường cong (hàm từ đường thẳng thực đến bề mặt của đa tạpp∈ M (ψ: R → M )p. p, C ∞ (t)→ R , ( f ∘ ψ ) ' (t)ψ M p,e,fp) chạy qua điểm và được mô tả bằng màu đỏ trên sơ đồ trên; và đại diện cho một chức năng kiểm tra. Ánh xạ đường viền trắng "iso- " tới cùng một điểm trên đường thẳng thực và bao quanh điểm .
Sự tương đương (hoặc một trong những tương đương được áp dụng cho thống kê) được thảo luận ở đây và sẽ liên quan đến trích dẫn sau :
Nếu không gian tham số cho một họ theo cấp số nhân chứa một tập mở chiều , thì nó được gọi là thứ hạng đầy đủ.
Một họ hàm mũ không có thứ hạng đầy đủ thường được gọi là họ hàm mũ, vì thông thường không gian tham số là một đường cong trong có kích thước nhỏ hơn s.
Điều này dường như làm cho việc giải thích cốt truyện như sau: các tham số phân phối (trong trường hợp này là các họ phân phối theo cấp số nhân) nằm trên đa tạp. Các điểm dữ liệu trong sẽ ánh xạ tới một dòng trên đa tạp thông qua hàm trong trường hợp có vấn đề tối ưu hóa phi tuyến tính thiếu thứ hạng. Điều này sẽ song song với việc tính toán vận tốc trong vật lý: tìm đạo hàm của hàm dọc theo độ dốc của các đường "iso-f" (đạo hàm định hướng màu cam):Hàm sẽ đóng vai trò tối ưu hóa việc lựa chọn tham số phân phối làm đường cong ψ : R → M f ( f ∘ ψ ) ' ( t ) . f : M → R ψ fđi dọc theo đường đồng mức của trên đa tạp.
NỀN TẢNG BỔ SUNG THÊM:
Lưu ý tôi tin rằng các khái niệm này không liên quan ngay đến việc giảm kích thước phi tuyến tính trong ML. Chúng xuất hiện gần giống với hình học thông tin . Đây là một trích dẫn:
Điều quan trọng, số liệu thống kê về đa tạp rất khác với học đa dạng. Cái sau là một nhánh của học máy trong đó mục tiêu là học một đa tạp tiềm ẩn từ dữ liệu có giá trị . Thông thường, kích thước của đa tạp tiềm ẩn được tìm kiếm sau nhỏ hơn . Đa tạp tiềm ẩn có thể là tuyến tính hoặc phi tuyến, tùy thuộc vào phương pháp cụ thể được sử dụng. n
Thông tin sau đây từ Số liệu thống kê về các ứng dụng với mô hình biến dạng hình dạng của Oren Freifeld :
Trong khi thường là phi tuyến, chúng tôi có thể kết hợp một không gian tiếp xúc, biểu hiện bằng , để tất cả các điểm . là một không gian vector có chiều hướng giống như của . Nguồn gốc của là tại . Nếu được nhúng vào một số không gian Euclide, chúng ta có thể nghĩ về như một không gian con affine sao cho: 1) nó chạm tại ; 2) ít nhất là tại địa phương, nằm hoàn toàn ở một bên của nó. Các phần tử của TpM được gọi là vectơ tiếp tuyến.T p M p ∈ M T p M M T p M p M T p M M p M
[...] Trên đa tạp, các mô hình thống kê thường được thể hiện trong các không gian tiếp tuyến.
[...]
[Chúng tôi xem xét hai] bộ dữ liệu bao gồm các điểm trong :
;
Hãy và đại diện hai, có thể chưa biết, điểm . Giả định rằng hai bộ dữ liệu đáp ứng các quy tắc thống kê sau: M
{ log μ S ( q 1 ) , ⋯ , log μ S ( q N S ) } ⊂ T μ S M ,
[...]
Nói cách khác, khi được biểu thị (dưới dạng vectơ tiếp tuyến) trong không gian tiếp tuyến (đến ) tại , nó có thể được xem như một tập hợp các mẫu iid từ Gaussian không có nghĩa với hiệp phương sai . Tương tự, khi được biểu thị trong không gian tiếp tuyến tại nó có thể được xem như là một tập hợp các mẫu iid từ một Gaussian có nghĩa là 0 với hiệp phương sai . Điều này khái quát hóa trường hợp Euclide. M μ L Σ L D S μ S Σ
Trên cùng một tham chiếu, tôi tìm thấy ví dụ gần nhất (và thực tế duy nhất) trực tuyến của khái niệm đồ họa này mà tôi đang hỏi về:
Điều này có cho thấy dữ liệu nằm trên bề mặt của đa tạp được biểu thị dưới dạng các vectơ tiếp tuyến và các tham số sẽ được ánh xạ trên mặt phẳng của Cartesian không?