Công cụ ước tính khả năng tối đa - Gaussian đa biến


20

Bối cảnh

Gaussian đa biến xuất hiện thường xuyên trong Machine Learning và các kết quả sau được sử dụng trong nhiều sách và khóa học ML mà không có đạo hàm.

Dữ liệu đã cho dưới dạng ma trận có kích thước , nếu chúng ta giả sử rằng dữ liệu tuân theo phân phối Gaussian với các tham số có nghĩa là ( ) và ma trận hiệp phương sai ( ) Công cụ ước tính khả năng tối đa được đưa ra bởi:Xm×ppμp×1Σp×p

  • μ^=1mi=1mx(i)=x¯
  • Σ^=1mi=1m(x(i)μ^)(x(i)μ^)T

Tôi hiểu rằng kiến ​​thức về Gaussian đa biến là điều kiện tiên quyết cho nhiều khóa học ML, nhưng sẽ rất hữu ích khi có được dẫn xuất đầy đủ trong một câu trả lời tự bao gồm một lần và cho tất cả vì tôi cảm thấy nhiều người tự học đang nảy qua các số liệu thống kê. trang web stackexchange và math.stackexchange tìm kiếm câu trả lời.


Câu hỏi

Nguồn gốc đầy đủ của Công cụ ước tính khả năng tối đa cho Gaussian đa biến là gì


Ví dụ:

Những bài giảng này (trang 11) về Phân tích phân biệt tuyến tính, hoặc những bài này sử dụng kết quả và thừa nhận kiến ​​thức trước đó.

Cũng có một vài bài viết được trả lời hoặc đóng một phần:

Câu trả lời:


24

Lấy các công cụ ước tính khả năng tối đa

Giả sử rằng chúng ta có vectơ ngẫu nhiên, mỗi kích thước : trong đó mỗi vectơ ngẫu nhiên có thể được hiểu là một quan sát (điểm dữ liệu) trên các biến . Nếu mỗi là iid như các vectơ Gauss đa biến:mp p X ( i )X(1),X(2),...,X(m)pX(i)

X(i)Np(μ,Σ)

Trong đó các tham số không xác định. Để có được ước tính của họ, chúng ta có thể sử dụng phương pháp khả năng tối đa và tối đa hóa chức năng khả năng đăng nhập.μ,Σ

Lưu ý rằng do tính độc lập của các vectơ ngẫu nhiên, mật độ chung của dữ liệu là sản phẩm của mật độ riêng lẻ , đó là . Lấy logarit cho hàm khả năng logΠ m i = 1 f X ( i ) ( x ( i ) ; μ , Σ ){X(i),i=1,2,...,m}i=1mfX(i)(x(i);μ,Σ)

l(μ,Σ|x(i))=logi=1mfX(i)(x(i)|μ,Σ)=log i=1m1(2π)p/2|Σ|1/2exp(12(x(i)μ)TΣ1(x(i)μ))=i=1m(p2log(2π)12log|Σ|12(x(i)μ)TΣ1(x(i)μ))

l(μ,Σ;)=mp2log(2π)m2log|Σ|12i=1m(x(i)μ)TΣ1(x(i)μ)

Xuất phátμ^

Để lấy đạo hàm tương ứng với và bằng 0, chúng ta sẽ sử dụng danh tính phép tính ma trận sau:μ

wAAwTMộtww= =2Mộtw nếu không phụ thuộc vào và là đối xứng.wMộtMột

μtôi(μ,Σ|x(Tôi))= =ΣTôi= =1mΣ-1(μ-x(Tôi))= =0Kể từ khi Σ là xác định tích cực0= =mμ-ΣTôi= =1mx(Tôi)μ^= =1mΣTôi= =1mx(Tôi)= =x¯

Mà thường được gọi vector trung bình mẫu .

Xuất phátΣ^

Xuất phát MLE cho ma trận hiệp phương sai đòi hỏi nhiều công việc hơn và sử dụng các thuộc tính đại số và tính toán tuyến tính sau:

  • Dấu vết là bất biến theo hoán vị tuần hoàn của các sản phẩm ma trận:tr[MộtCB]= =tr[CMộtB]= =tr[BCMột]
  • Vì là vô hướng, chúng ta có thể lấy dấu vết của nó và nhận được cùng một giá trị:x t A x = t r [ x T A x ] = t r [ x t x A ]xTMộtxxtMộtx= =tr[xTMộtx]= =tr[xtxMột]
  • Mộttr[MộtB]= =BT
  • Mộtđăng nhập|Một|= =Một-T

Kết hợp các tính chất này cho phép chúng ta tính toán

MộtxtMộtx= =Mộttr[xTxMột]= =[xxt]T= =xTTxT= =xxT

Đó là sản phẩm bên ngoài của vectơ với chính nó.x

Bây giờ chúng ta có thể viết lại hàm khả năng đăng nhập và tính toán wrt phái sinh (lưu ý là hằng số) CΣ-1C

tôi(μ,Σ|x(Tôi))= =C-m2đăng nhập|Σ|-12ΣTôi= =1m(x(Tôi)-μ)TΣ-1(x(Tôi)-μ)= =C+m2đăng nhập|Σ-1|-12ΣTôi= =1mtr[(x(Tôi)-μ)(x(Tôi)-μ)TΣ-1]Σ-1tôi(μ,Σ|x(Tôi))= =m2Σ-12ΣTôi= =1m(x(Tôi)-μ)(x(Tôi)-μ)T  Kể từ khi ΣT= =Σ

Tương đương với 0 và giải choΣ

0= =mΣ-ΣTôi= =1m(x(Tôi)-μ)(x(Tôi)-μ)TΣ^= =1mΣTôi= =1m(x(Tôi)-μ^)(x(Tôi)-μ^)T

Nguồn


Bằng chứng thay thế, hình thức nhỏ gọn hơn, hoặc giải thích trực quan đều được chào đón!
Xavier Bourret Sicotte

Trong đạo hàm cho , tại sao cần phải xác định dương? Có vẻ như đủ rằng là không thể đảo ngược? Đối với ma trận khả nghịch , chỉ khi ? Σ Σ A A x = 0 x = 0μΣΣAAx=0x=0
Tom Bennett

Để làm rõ, là ma trận có thể có các thành phần đường chéo hữu hạn và không chéo cho thấy mối tương quan giữa các vectơ, đúng không? Nếu đó là trường hợp, theo nghĩa nào thì các vectơ này độc lập? Ngoài ra, tại sao hàm xác suất chung bằng với khả năng? Không nên mật độ khớp, , bằng với khả năng nhân với trước, tức là ? m × m f ( x , y ) f ( x | y ) f ( y )Σm×mf(x,y)f(x|y)f(y)
Mathews24

1
@TomBennett ma trận sigma là xác định dương theo định nghĩa - xem stats.stackexchange.com/questions/52976/iêu để chứng minh. Nhận dạng tính toán ma trận đòi hỏi ma trận phải đối xứng, không xác định dương. Nhưng vì ma trận xác định dương luôn luôn đối xứng hoạt động
Xavier Bourret Sicotte

1
Đúng vậy - sự độc lập giữa các quan sát cho phép có được khả năng - từ ngữ có thể không rõ ràng đủ - đây là phiên bản đa biến của khả năng. Ưu tiên vẫn không liên quan bất kể
Xavier Bourret Sicotte

5

Một bằng chứng thay thế cho lấy đạo hàm liên quan trực tiếp đến :Σ^Σ

Chọn khả năng đăng nhập như trên: trong đó và chúng tôi đã sử dụng các thuộc tính tuần hoàn và tuyến tính của . Để tính toán trước tiên chúng ta quan sát rằng

(μ,Σ)=Cm2log|Σ|12i=1mtr[(x(i)μ)TΣ1(x(i)μ)]=C12(mlog|Σ|+i=1mtr[(x(i)μ)(x(i)μ)TΣ1])=C12(mlog|Σ|+tr[SμΣ1])
Sμ=i=1m(x(i)μ)(x(i)μ)Ttr/Σ
Σđăng nhập|Σ|= =Σ-T= =Σ-1
bởi thuộc tính thứ tư ở trên. Để lấy đạo hàm của số hạng thứ hai, chúng ta sẽ cần thuộc tính (từ The Matrix Cookbook , phương trình 63). Áp dụng điều này với nhận được vì cả và đều đối xứng. Sau đó
Xtr(MộtX-1B)= =-(X-1BMộtX-1)T.
B=TôiB= =tôi
Σtr[SμΣ-1]= =-(Σ-1SμΣ-1)T= =-Σ-1SμΣ-1
ΣSμ
Σ(μ,Σ)αmΣ-1-Σ-1SμΣ-1.
Đặt giá trị này thành 0 và sắp xếp lại sẽ cho Σ =1
Σ^= =1mSμ.

Cách tiếp cận này hiệu quả hơn phương pháp tiêu chuẩn sử dụng các công cụ phái sinh liên quan đến và yêu cầu nhận dạng dấu vết phức tạp hơn. Tôi chỉ thấy nó hữu ích vì hiện tại tôi cần sử dụng các dẫn xuất của hàm khả năng đã sửa đổi mà việc sử dụng hơn nhiều so với .Λ= =Σ-1/Σ-1/Σ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.