Làm rõ trong hình học thông tin


10

Câu hỏi này liên quan đến bài báo Hình học vi phân của các gia đình hàm mũ cong và mất thông tin của Amari.

Các văn bản đi như sau.

Đặt là một đa dạng phân phối xác suất với hệ tọa độ , trong đó được giả sử ...Sn={pθ}nθ=(θ1,,θn)pθ(x)>0

Chúng tôi có thể coi mọi điểm của là mang hàm của ...θSnlogpθ(x)x

Đặt là không gian tiếp tuyến của tại , nói một cách đại khái, được xác định bằng một phiên bản tuyến tính của một khu phố nhỏ của trong . Đặt là cơ sở tự nhiên của liên kết với hệ thống phối hợp ...TθSnθθSnei(θ),i=1,,nTθ

Vì mỗi điểm của mang hàm của , nên việc coi tại là đại diện cho hàmθSnlogpθ(x)xei(θ)θ

ei(θ)=θilogpθ(x).

Tôi không hiểu câu nói cuối cùng. Điều này xuất hiện trong phần 2 của bài báo nói trên. Làm thế nào cơ sở của không gian tiếp tuyến được đưa ra bởi phương trình trên? Sẽ rất hữu ích nếu ai đó trong cộng đồng này quen thuộc với loại tài liệu này có thể giúp tôi hiểu điều này. Cảm ơn.


Cập nhật 1:

Mặc dù tôi đồng ý rằng (từ @aginensky) nếu độc lập tuyến tính thì cũng độc lập tuyến tính, làm thế nào đây là những thành viên của không gian tiếp tuyến ở nơi đầu tiên không rõ ràng. Vậy làm thế nào để được coi là cơ sở cho không gian tiếp tuyến. Bất kỳ trợ giúp được đánh giá cao.θipθθilogpθθilogpθ

Cập nhật 2:

@aginensky: Trong cuốn sách của mình, Amari nói như sau:

Chúng ta hãy xem xét trường hợp , tập hợp tất cả các biện pháp xác suất dương (đúng) trên , trong đó chúng tôi coi là tập con của . Trong thực tế, là một tập hợp con mở của không gian affine .Sn=P(X)X={x0,,xn}P(X)RX={X|X:XR}P(X){X|xX(x)=1}

Sau đó, không gian tiếp tuyến của tại mọi điểm có thể được xác định một cách tự nhiên với không gian con tuyến tính . Đối với cơ sở tự nhiên của hệ thống tọa độ , chúng tôi có .Tp(Sn)SnA0={X|xX(x)=0}θiθ=(θ1,,θn)(θi)θ=θipθ

Tiếp theo, chúng ta hãy nhúng và xác định với tập hợp con của . Một vectơ tiếp tuyến sau đó được biểu thị bằng kết quả của việc vận hành thành , mà chúng ta biểu thị bằng . Cụ thể, chúng tôi có . Rõ ràng là và plogpSnlogSn:={logp|pSn}RXXTp(Sn)XplogpX(e)(θi)θ(e)=θilogpθX(e)=X(x)/p(x)

Tp(e)(Sn)={X(e)|XTp(Sn)}={ARX|xA(x)p(x)=0}.

Câu hỏi của tôi: Nếu cả và là cơ sở cho không gian tiếp tuyến thì điều này sẽ không mâu thuẫn với thực tế là và là khác biệt và ?θi(θi)(e)TpTp(e)θi(e)Tp(e)

Tôi đoán dường như có một mối liên hệ giữa ( ) và . Nếu bạn có thể làm rõ điều này, nó sẽ giúp ích rất nhiều. Bạn có thể cho nó như một câu trả lời.Sn,Tp(logSn,Tp(e))


Cá nhân, tôi hiểu sự nhầm lẫn của bạn. Có vẻ như p không tự nhiên khi sử dụng tọa độ " " cho không gian tiếp tuyến. Câu hỏi của bạn là cục bộ, vì vậy chúng tôi sẽ lấy làm tọa độ cục bộ. Các tọa độ thông thường cho không gian tiếp tuyến là . Với các điều kiện hợp lý trên về độ mịn, đạo hàm không biến mất, v.v., theo quy tắc chuỗi, người ta sẽ lấy cơ sở tiêu chuẩn của không gian tiếp tuyến và nhân nó với các hàm, nói chung, vẫn sẽ là cơ sở . ei(θ)=θilogpθ(x)θiθipθ
meh

Tôi đã cố gắng chỉnh sửa nhận xét của mình cho rõ ràng và không được phép. Hãy cho tôi biết nếu bạn muốn biết thêm chi tiết.
meh

Cảm ơn bạn @aginensky: Ý bạn là vì , đây cũng là một cơ sở cho không gian tiếp tuyến, phải không? θilogpθ(x)=1/pθ(x)θipθ(x)
Ashok

Tuyên bố cuối cùng là một phiên bản (bị hỏng) của một định nghĩa về một không gian tiếp tuyến. Nói một cách chính xác, không gian tiếp tuyến tại một điểm của một đa tạp khác biệt là (không gian vectơ) đối với không gian dẫn xuất của vi trùng có chức năng khác biệt trong một vùng lân cận của điểm đó. Một cơ sở cho kép là và theo định nghĩa , là cơ sở kép của nó. Một tài liệu tham khảo tiêu chuẩn về tài liệu này là Tập 1 của Hình học vi phân của Michael Spivak , amazon.com/ . {dθi}{θi}
whuber

@ Ashok - vâng. Tôi sẽ xem xét những gì tôi đã viết dựa trên một phiên bản ngắn gọn của một định nghĩa về một không gian tiếp tuyến. Tất nhiên vì không gian cotangent là kép đối với không gian tiếp tuyến, nên người ta có thể tranh luận một cách bình đẳng rằng là cơ sở kép thực sự. Trong mọi trường hợp miễn là không biến mất, tôi nghĩ bạn tốt. dθpθ
meh

Câu trả lời:


2

Nhận xét của tôi rất dài, tôi đưa chúng vào như một câu trả lời.

Tôi nghĩ rằng câu hỏi mang tính triết học nhiều hơn toán học vào thời điểm này. Cụ thể, bạn có ý nghĩa gì bởi một không gian, và trong trường hợp này, một đa tạp? Định nghĩa điển hình của một đa tạp không liên quan đến việc nhúng vào một không gian affine. Đây là cách tiếp cận 'hiện đại' (150 tuổi?). Ví dụ, đối với Gauss, một đa tạp là một đa tạp với việc nhúng cụ thể vào một không gian affine cụ thể ( ). Nếu người ta có một đa tạp có nhúng trong một cụ thể , thì không gian tiếp tuyến (tại bất kỳ điểm nào của đa tạp) là đẳng cấu với một không gian con cụ thể của không gian tiếp tuyến với tại điểm đó. Lưu ý rằng không gian tiếp tuyến với tại bất kỳ điểm nào được xác định bằng 'cùng' . RnRnRnRnRn

Tôi nghĩ vấn đề là trong bài viết của Amari, không gian mà anh ấy đề cập đến là đi kèm với một số nhúng 'tự nhiên' trong một không gian affine với tọa độ mà có thể được xem xét như tọa độ trên không gian tiếp tuyến của . Tôi có thể thêm rằng nó chỉ rõ ràng nếu hàm là 'chung' trong một số ý nghĩa - đối với suy biến , điều này sẽ thất bại. Ví dụ: nếu hàm không liên quan đến tất cả các biến . Điểm chính là việc nhúng đa tạp này trong một cụ thể , làm phát sinh một nhận dạng cụ thể của không gian tiếp tuyến vớiSnθipθSnppθiRnpθ. Điểm tiếp theo của anh ta là do tính chất của , anh ta có thể ánh xạ đa tạp của mình bằng cách sử dụng hàm log sang một không gian affine khác trong đó không gian tiếp tuyến có một nhận dạng khác nhau về tọa độ mới (các bản ghi và các dẫn xuất của chúng). Sau đó, anh ta nói rằng vì các tính chất của tình huống của anh ta, hai đa tạp là đẳng cấu và bản đồ tạo ra một sự đẳng cấu trên các không gian tiếp tuyến. Điều đó dẫn đến một nhận dạng (nghĩa là đẳng cấu) của hai không gian tiếp tuyến. p

Ý tưởng chính là hai không gian tiếp tuyến không phải là cùng một tập hợp, nhưng là đẳng cấu (về cơ bản là tiếng Hy Lạp có nghĩa là 'giống nhau') sau khi xác định chính xác. Ví dụ: nhóm của tất cả các hoán vị của là nhóm 'giống' với nhóm của tất cả các hoán vị của không? Là một thử nghiệm suy nghĩ đơn giản, hãy xem xét , ánh xạ thực dương tới , tất cả các thực trong nhật ký bản đồ. Chọn số thực yêu thích của bạn và xem xét bản đồ là gì trên các không gian tiếp tuyến. Cuối cùng tôi có hiểu câu hỏi của bạn không? Một cảnh báo là theo thứ tự, cụ thể là hình học vi phân không phải là lĩnh vực chuyên môn chính của tôi. Tôi nghĩ rằng tôi đã hiểu đúng, nhưng cứ thoải mái chỉ trích hoặc vẫn thắc mắc câu trả lời này.{1,2,3}{a,b,c}R+R>0


Ý nghĩa của bạn về "đẳng cấu" không hoàn toàn rõ ràng, nhưng dường như nó chỉ là một từ rất yếu; cụ thể là bản đồ được đưa ra bởi của bản đồ phân biệt khả nghịch, chỉ là một số phép biến đổi tuyến tính khả nghịch. Ý tưởng chính để thực hiện hình học là để có được một số liệu Riemanninan có ý nghĩa và hữu ích được xác định trên đa tạp. Ý nghĩa liên quan của "đẳng cấu" sẽ là đẳng hình : nghĩa là bản đồ giữa các không gian tiếp tuyến phải được bảo toàn khoảng cách. f
whuber

@whuber. Thật vậy, ý kiến ​​của tôi chỉ về hình học vi phân của tình huống và không gian tiếp tuyến. Tôi không rõ ràng về những điều kiện trên sẽ là cần thiết để làm cho bản đồ trở thành một hình học. Nhưng khi tôi hiểu câu hỏi, nó thực sự nhận ra sự khác biệt giữa một nhận dạng ('giống nhau') và một đẳng cấu. p
meh

@whuber: Số liệu Riemannian có liên quan ở đây được đưa ra bởi , trong đó . Điều này có gợi ý cũng có thể được coi là vectơ tiếp tuyến không? G=[gi,j]gi,j=xipθ(x) jlogpθ(x)jlogpθ
Ashok
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.