Nó có thể giúp đưa ra một chút tổng quan về MMD.
Nói chung, MMD được xác định bởi ý tưởng biểu thị khoảng cách giữa các bản phân phối là khoảng cách giữa các tính năng nhúng trung bình của các tính năng. Nghĩa là, nói chúng tôi có phân phối và trên một tập . MMD được xác định bởi một bản đồ đặc trưng , trong đó là cái được gọi là không gian Hilbert tái tạo. Nói chung, MMD là
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Lấy một ví dụ, chúng ta có thể có và . Trong trường hợp đó:
vì vậy MMD này chỉ là khoảng cách giữa các phương tiện của hai bản phân phối. Kết hợp các phân phối như thế này sẽ phù hợp với phương tiện của họ, mặc dù chúng có thể khác nhau về phương sai hoặc theo các cách khác.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Trường hợp của bạn hơi khác một chút: chúng ta có và , với , trong đó là ma trận . Vì vậy, chúng tôi có
MMD này là sự khác biệt giữa hai hình chiếu khác nhau của giá trị trung bình. Nếu hoặc ánh xạ nếu không thì không thể đảo ngược,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ so với cái trước: nó không phân biệt giữa một số bản phân phối mà cái trước làm.
Bạn cũng có thể xây dựng khoảng cách mạnh mẽ hơn. Ví dụ: nếu và bạn sử dụng , thì MMD trở thành và có thể phân biệt không chỉ các bản phân phối với các phương tiện khác nhau mà còn với các phương sai khác nhau.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
Và bạn có thể mạnh hơn thế nhiều: nếu ánh xạ tới không gian Hilbert nhân bản chung, thì bạn có thể áp dụng thủ thuật kernel để tính toán MMD, và hóa ra nhiều hạt nhân, bao gồm cả nhân Gaussian, dẫn đến MMD bằng không nếu và chỉ các bản phân phối là giống hệt nhau.φ
Cụ thể, để , bạn nhận được
mà bạn có thể ước tính đơn giản với các mẫu.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Cập nhật: đây là nơi "tối đa" trong tên đến từ.
Bản đồ tính năng ánh xạ vào một không gian Hilbert tái tạo. Đây là không gian của các hàm và đáp ứng một thuộc tính khóa (được gọi là thuộc tính sao chép ): cho mọi .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
Trong ví dụ đơn giản nhất, với , chúng tôi xem mỗi là hàm tương ứng với một số , bởi . Sau đó, thuộc tính sao chép sẽ có ý nghĩa.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
Trong các cài đặt phức tạp hơn, như nhân Gaussian, là hàm phức tạp hơn nhiều, nhưng thuộc tính sao chép vẫn giữ.f
Bây giờ, chúng ta có thể đưa ra một đặc tính thay thế của MMD:
Dòng thứ hai là một thực tế chung về các chỉ tiêu trong không gian Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ đạt được bởi . Thứ tư phụ thuộc vào một điều kiện kỹ thuật được gọi là tích phân Bochner nhưng là đúng, ví dụ như đối với các hạt nhân bị ràng buộc hoặc phân phối với sự hỗ trợ bị ràng buộc. Sau đó, vào cuối chúng ta sử dụng tài sản sao chép.f=g/∥g∥
Dòng cuối cùng này là lý do tại sao nó được gọi là "chênh lệch trung bình tối đa" - đó là mức tối đa, vượt quá các hàm kiểm tra trong bóng đơn vị của , về sự khác biệt trung bình giữa hai phân phối.fH