Sai lệch trung bình tối đa (phân phối khoảng cách)


13

Tôi có hai bộ dữ liệu (dữ liệu nguồn và dữ liệu đích) theo phân phối khác nhau. Tôi đang sử dụng MMD - đó là phân phối khoảng cách không tham số - để tính phân phối biên giữa dữ liệu nguồn và dữ liệu đích.

dữ liệu nguồn, Xs

dữ liệu mục tiêu, Xt

Ma trận thích ứng A

* Dữ liệu được chiếu, Zs = A '* Xs và Zt = A' Xt

* MMD => Khoảng cách (P (Xs), P (Xt)) = | nghĩa là (A'Xs) - nghĩa là (A ' Xt) |

Điều đó có nghĩa là: khoảng cách phân phối giữa dữ liệu nguồn và dữ liệu đích trong không gian ban đầu tương đương với khoảng cách giữa các phương tiện của nguồn được chiếu và dữ liệu đích trong không gian nhúng.

Tôi có một câu hỏi về khái niệm MMD.

Trong công thức MMD, Tại sao với khoảng cách tính toán trong không gian tiềm ẩn, chúng ta có thể đo khoảng cách của phân phối trong không gian ban đầu?

Cảm ơn


Bạn chưa thực sự hỏi một câu hỏi nào: bạn chỉ nói với chúng tôi rằng bạn bị nhầm lẫn!
whuber

Câu trả lời:


39

Nó có thể giúp đưa ra một chút tổng quan về MMD.

Nói chung, MMD được xác định bởi ý tưởng biểu thị khoảng cách giữa các bản phân phối là khoảng cách giữa các tính năng nhúng trung bình của các tính năng. Nghĩa là, nói chúng tôi có phân phối và trên một tập . MMD được xác định bởi một bản đồ đặc trưng , trong đó là cái được gọi là không gian Hilbert tái tạo. Nói chung, MMD là PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Lấy một ví dụ, chúng ta có thể có và . Trong trường hợp đó: vì vậy MMD này chỉ là khoảng cách giữa các phương tiện của hai bản phân phối. Kết hợp các phân phối như thế này sẽ phù hợp với phương tiện của họ, mặc dù chúng có thể khác nhau về phương sai hoặc theo các cách khác.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Trường hợp của bạn hơi khác một chút: chúng ta có và , với , trong đó là ma trận . Vì vậy, chúng tôi có MMD này là sự khác biệt giữa hai hình chiếu khác nhau của giá trị trung bình. Nếu hoặc ánh xạ nếu không thì không thể đảo ngược,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA so với cái trước: nó không phân biệt giữa một số bản phân phối mà cái trước làm.

Bạn cũng có thể xây dựng khoảng cách mạnh mẽ hơn. Ví dụ: nếu và bạn sử dụng , thì MMD trở thành và có thể phân biệt không chỉ các bản phân phối với các phương tiện khác nhau mà còn với các phương sai khác nhau.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

Và bạn có thể mạnh hơn thế nhiều: nếu ánh xạ tới không gian Hilbert nhân bản chung, thì bạn có thể áp dụng thủ thuật kernel để tính toán MMD, và hóa ra nhiều hạt nhân, bao gồm cả nhân Gaussian, dẫn đến MMD bằng không nếu và chỉ các bản phân phối là giống hệt nhau.φ

Cụ thể, để , bạn nhận được mà bạn có thể ước tính đơn giản với các mẫu.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Cập nhật: đây là nơi "tối đa" trong tên đến từ.

Bản đồ tính năng ánh xạ vào một không gian Hilbert tái tạo. Đây là không gian của các hàm và đáp ứng một thuộc tính khóa (được gọi là thuộc tính sao chép ): cho mọi .φ:XHf,φ(x)H=f(x)fH

Trong ví dụ đơn giản nhất, với , chúng tôi xem mỗi là hàm tương ứng với một số , bởi . Sau đó, thuộc tính sao chép sẽ có ý nghĩa.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

Trong các cài đặt phức tạp hơn, như nhân Gaussian, là hàm phức tạp hơn nhiều, nhưng thuộc tính sao chép vẫn giữ.f

Bây giờ, chúng ta có thể đưa ra một đặc tính thay thế của MMD: Dòng thứ hai là một thực tế chung về các chỉ tiêu trong không gian Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g đạt được bởi . Thứ tư phụ thuộc vào một điều kiện kỹ thuật được gọi là tích phân Bochner nhưng là đúng, ví dụ như đối với các hạt nhân bị ràng buộc hoặc phân phối với sự hỗ trợ bị ràng buộc. Sau đó, vào cuối chúng ta sử dụng tài sản sao chép.f=g/g

Dòng cuối cùng này là lý do tại sao nó được gọi là "chênh lệch trung bình tối đa" - đó là mức tối đa, vượt quá các hàm kiểm tra trong bóng đơn vị của , về sự khác biệt trung bình giữa hai phân phối.fH


Cảm ơn lời giải thích của bạn, nó trở nên rõ ràng hơn đối với tôi; Tuy nhiên, ban đầu tôi không hiểu khái niệm này, "MMD được xác định bởi ý tưởng biểu thị khoảng cách giữa các bản phân phối là khoảng cách giữa các tính năng nhúng trung bình." Tại sao ý tưởng này trở thành sự thật?
Mahsa

"MMD được định nghĩa bởi ý tưởng biểu thị khoảng cách giữa các bản phân phối là khoảng cách giữa các tính năng nhúng trung bình của các tính năng." Tại sao ý tưởng này trở thành sự thật? Nó có liên quan đến không gian RKHS không?
Mahsa

1
Đó chỉ là một định nghĩa: bạn có thể so sánh các bản phân phối bằng cách so sánh các phương tiện của chúng. Hoặc, bạn có thể so sánh các bản phân phối bằng cách so sánh một số chuyển đổi phương tiện của chúng; hoặc bằng cách so sánh các phương tiện và phương sai của chúng; hoặc bằng cách so sánh giá trị trung bình của bất kỳ bản đồ đặc trưng nào khác, bao gồm một bản đồ trong RKHS.
Dougal

Cám ơn phản hồi của bạn; Tôi sẽ đọc thêm về bản đồ tính năng RKHS; Tôi đã tự hỏi, tại sao MMD được xác định khoảng cách trong bản đồ tính năng RKHS? Ý tôi là, lợi ích của RKHS trong định nghĩa khoảng cách MMD là gì?
Mahsa

Giải thích ở đây tập trung vào "Chênh lệch trung bình" trái ngược với "Chênh lệch trung bình tối đa". Bất cứ ai có thể giải thích về phần "Tối đa hóa"?
Giang Tương

4

Đây là cách tôi diễn giải MMD. Hai bản phân phối tương tự nhau nếu khoảnh khắc của chúng tương tự nhau. Bằng cách áp dụng kernel, tôi có thể biến đổi biến sao cho tất cả các khoảnh khắc (thứ nhất, thứ hai, thứ ba, v.v.) được tính toán. Trong không gian tiềm ẩn tôi có thể tính toán sự khác biệt giữa các khoảnh khắc và trung bình nó. Điều này đưa ra thước đo về sự giống nhau / không giống nhau giữa các bộ dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.