Tại sao ma trận xác định dương tính đối xứng (SPD) rất quan trọng?


20

Tôi biết định nghĩa của ma trận xác định dương tính đối xứng (SPD), nhưng muốn hiểu thêm.

Tại sao chúng rất quan trọng, bằng trực giác?

Đây là những gì tôi biết. Còn gì nữa không

  • Đối với một dữ liệu nhất định, ma trận Co-variance là SPD. Ma trận đồng phương là một số liệu quan trọng, hãy xem bài đăng tuyệt vời này để được giải thích trực quan.

  • Dạng bậc hai là lồi, nếu là SPD. Convexity là một thuộc tính tốt cho một chức năng có thể đảm bảo giải pháp cục bộ là giải pháp toàn cầu. Đối với các bài toán lồi, có nhiều thuật toán tốt để giải, nhưng không phải cho các bài toán không covex.A12xAxbx+cA

  • Khi là SPD, giải pháp tối ưu hóa cho dạng bậc hai và giải pháp cho hệ tuyến tính là như nhau. Vì vậy, chúng tôi có thể chạy chuyển đổi giữa hai vấn đề cổ điển. Điều này rất quan trọng vì nó cho phép chúng tôi sử dụng các thủ thuật được phát hiện trong một miền trong miền khác. Ví dụ, chúng ta có thể sử dụng phương pháp gradient liên hợp để giải hệ phương trình tuyến tính.hạn chế tối đa 1AAx=b

    minimize   12xAxbx+c
    Ax=b
  • Có nhiều thuật toán tốt (nhanh, ổn định số) hoạt động tốt hơn cho ma trận SPD, chẳng hạn như phân tách Cholesky.

EDIT: Tôi không cố gắng hỏi danh tính cho ma trận SPD, nhưng trực giác đằng sau tài sản để cho thấy tầm quan trọng. Ví dụ, như được đề cập bởi @Matthew Drury, nếu một ma trận là SPD, Eigenvalues ​​đều là các số thực dương, nhưng tại sao tất cả các vấn đề tích cực. @Matthew Drury đã có một câu trả lời tuyệt vời cho dòng chảy và đó là những gì tôi đang tìm kiếm.


7
Eigenvalues ​​là tất cả các số thực dương. Thực tế này là nền tảng của nhiều người khác.
Matthew Drury

4
Để đi xa hơn một chút so với @Matthew: Nếu bạn chọn một cơ sở phù hợp, tất cả các ma trận như vậy đều giống nhau và bằng với ma trận danh tính. Nói cách khác, có chính xác một dạng bậc hai xác định dương trong mỗi chiều (đối với không gian vectơ thực) và nó giống như khoảng cách Euclide.
whuber

2
Bạn sẽ tìm thấy một số trực giác trong nhiều cách cơ bản để hiển thị các giá trị riêng của ma trận đối xứng thực là hoàn toàn có thật: mathoverflow.net/questions/118626/ . Đặc biệt, dạng bậc hai xuất hiện tự nhiên trong thương số Rayleigh và ma trận đối xứng cung cấp cách thức tự nhiên để thể hiện một gia đình lớn của ma trận có giá trị riêng là có thật. Xem định lý Couax minimax chẳng hạn: en.wikipedia.org/wiki/Courant_minimax_principlxTAx
Alex R.

4
Điều này có vẻ quá rộng, nếu nó chưa có ba câu trả lời thì có khả năng tôi đã đóng nó trên cơ sở đó. Vui lòng cung cấp thêm hướng dẫn về những gì bạn muốn biết cụ thể (yêu cầu trực giác quá nhiều cá nhân / cá nhân để mọi người đoán trong trường hợp như thế này)
Glen_b -Reinstate Monica

1
Tôi đang gặp khó khăn khi đưa ra một tình huống trong thống kê sẽ làm phát sinh một ma trận không phải là psd (trừ khi bạn làm hỏng việc tính toán một ma trận tương quan, ví dụ bằng cách điền vào nó bằng tương quan cặp được tính toán trên dữ liệu với các giá trị bị thiếu) . Bất kỳ ma trận đối xứng vuông nào tôi có thể nghĩ là một hiệp phương sai, thông tin hoặc ma trận chiếu. (Ở những nơi khác trong toán học ứng dụng, ma trận không psd có thể là một chuẩn mực văn hóa, ví dụ như ma trận phần tử hữu hạn trong PDE, nói.)
StasK

Câu trả lời:


15

Một ma trận đối xứng (thực) có một bộ hoàn chỉnh các hàm riêng trực giao mà các giá trị riêng tương ứng đều là các số thực. Đối với ma trận không đối xứng, điều này có thể thất bại. Ví dụ, một phép quay trong không gian hai chiều không có giá trị riêng hoặc giá trị riêng trong các số thực, bạn phải chuyển đến một không gian vectơ trên các số phức để tìm chúng.

Nếu ma trận là cực dương xác định, thì các giá trị riêng này đều là các số thực dương. Thực tế này dễ hơn nhiều so với lần đầu tiên, vì nếu là một hàm riêng có độ dài đơn vị và giá trị riêng tương ứng, thìλvλ

λ=λvtv=vtAv>0

trong đó đẳng thức cuối cùng sử dụng định nghĩa về độ chính xác dương.

Điều quan trọng ở đây đối với trực giác là các hàm riêng và giá trị riêng của phép biến đổi tuyến tính mô tả hệ tọa độ trong đó phép biến đổi dễ hiểu nhất. Một phép biến đổi tuyến tính có thể rất khó hiểu trong cơ sở "tự nhiên" như hệ tọa độ chuẩn, nhưng mỗi phép đi kèm với một cơ sở "ưu tiên" của các hàm riêng trong đó phép biến đổi hoạt động như một tỷ lệ theo mọi hướng. Điều này làm cho hình học của sự biến đổi dễ hiểu hơn nhiều.

Ví dụ, phép thử đạo hàm thứ hai cho cực trị cục bộ của hàm thường được đưa ra dưới dạng một loạt các điều kiện bí ẩn liên quan đến một mục trong ma trận đạo hàm thứ hai và một số định thức. Trong thực tế, những điều kiện này chỉ đơn giản mã hóa quan sát hình học sau đây:R2R

  • Nếu ma trận của các dẫn xuất thứ hai là xác định dương, thì bạn ở mức tối thiểu cục bộ.
  • Nếu ma trận của các đạo hàm thứ hai là âm xác định, bạn đang ở mức tối đa cục bộ.
  • Nếu không, bạn không ở, một điểm yên ngựa.

Bạn có thể hiểu điều này với lý luận hình học ở trên trong một bản địa. Đạo hàm đầu tiên tại một điểm tới hạn sẽ biến mất, do đó tốc độ thay đổi của hàm ở đây được kiểm soát bởi đạo hàm thứ hai. Bây giờ chúng ta có thể lý luận về mặt hình học

  • Trong trường hợp đầu tiên, có hai hướng riêng, và nếu bạn di chuyển dọc thì chức năng sẽ tăng lên.
  • Trong hướng thứ hai, hai hướng riêng, và nếu bạn di chuyển theo một trong hai chức năng sẽ giảm.
  • Cuối cùng, có hai hướng riêng, nhưng ở một trong số đó, chức năng tăng lên và ở hướng còn lại thì giảm.

Do các hàm riêng bao trùm toàn bộ không gian, nên bất kỳ hướng nào khác là sự kết hợp tuyến tính của các hướng bản địa, do đó tốc độ thay đổi theo các hướng đó là kết hợp tuyến tính của tốc độ thay đổi theo hướng bản địa. Vì vậy, trên thực tế, điều này đúng theo mọi hướng (điều này ít nhiều có nghĩa là một chức năng được xác định trên một không gian chiều cao hơn có thể phân biệt được). Bây giờ nếu bạn vẽ một bức tranh nhỏ trong đầu, điều này có ý nghĩa rất lớn từ một thứ khá bí ẩn trong các văn bản tính toán mới bắt đầu.

Điều này áp dụng trực tiếp cho một trong những gạch đầu dòng của bạn

Dạng bậc hai là lồi, nếuAlà SPD. Convex là một tài sản tốt có thể đảm bảo giải pháp địa phương là giải pháp toàn cầu12xAxbx+cA

Ma trận của các đạo hàm thứ hai là ở mọi nơi, là đối xứng dương xác định. Về mặt hình học, điều này có nghĩa là nếu chúng ta di chuyển theo bất kỳ hướng bản địa nào (và do đó là bất kỳ hướng nào , bởi vì bất kỳ hướng nào khác là sự kết hợp tuyến tính của hướng bản địa), chính hàm đó sẽ uốn cong trên mặt phẳng tiếp tuyến của nó. Điều này có nghĩa là toàn bộ bề mặt là lồi.A


5
Một cách đồ họa để xem xét nó: nếu là SPD, các đường viền của dạng bậc hai liên quan là elip. A
JM không phải là một nhà thống kê

7
Đặc tính đó của @JM rất nhạy cảm. Trong trường hợp bất cứ ai thắc mắc điều gì có thể đặc biệt về đường viền ellipsoidal, lưu ý rằng chúng chỉ là những quả cầu hoàn hảo được ngụy trang: các đơn vị đo có thể khác nhau dọc theo trục chính của chúng và các ellipsoids có thể được xoay theo tọa độ mà dữ liệu được mô tả , nhưng với nhiều mục đích lớn - đặc biệt là những mục đích khái niệm - những khác biệt đó là không quan trọng.
whuber

Điều đó liên quan đến cách hiểu của tôi về phương pháp hình học của Newton. Tốt nhất là xấp xỉ mức hiện tại được thiết lập với một ellipsoid, và sau đó lấy một hệ tọa độ trong đó ellipsoid là một vòng tròn, di chuyển trực giao đến vòng tròn trong hệ tọa độ đó.
Matthew Drury

1
Nếu có các ràng buộc (hoạt động), bạn cần chiếu vào Jacobian của các ràng buộc hoạt động trước khi thực hiện các giá trị eigenvalue và eigendirection. Nếu Hessian là psd, phép chiếu (bất kỳ) sẽ là psd, nhưng điều ngược lại không nhất thiết là đúng và thường thì không. Xem câu trả lời của tôi.
Mark L. Stone

10

Bạn sẽ tìm thấy một số trực giác trong nhiều cách cơ bản để hiển thị giá trị riêng của ma trận đối xứng thực là hoàn toàn có thật: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- bằng chứng / 118640 # 118640

xTAx

d(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,x)x,y với x 0 . Theo cách này, ma trận xác định dương đối xứng có thể được xem là ứng cử viên lý tưởng cho các phép biến đổi tọa độ.x2=xTAx>0x0

Thuộc tính thứ hai này là khóa hoàn toàn trong khu vực của các máy vectơ hỗ trợ, cụ thể là các phương thức kernel và thủ thuật kernel , trong đó kernel phải đối xứng dương để tạo ra sản phẩm bên trong bên phải. Thật vậy , định lý Mercer khái quát các tính chất trực quan của ma trận đối xứng với các không gian chức năng.


9

f(x+Δx)

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

Δx

f(x+Δx)f(x)+2f(x)Δx

Δx

Δx=2f(x)1f(x)

2f(x)Δx

f(x)TΔx=f(x)T2f(x)1f(x)<0

Khi sử dụng phương pháp của Newton, ma trận Hessian không SPD thường được "huých" thành SPD. Có một thuật toán gọn gàng được gọi là Cholesky đã sửa đổi sẽ phát hiện ra một Hessian không phải SPD, "nâng niu" nó theo đúng hướng và đưa ra kết quả, tất cả đều cho (về cơ bản) chi phí tương đương với nhân tố Cholesky. Các phương pháp Quasi-Newton tránh được vấn đề này bằng cách buộc Hessian gần đúng là SPD.

Bên cạnh đó, các hệ thống không xác định đối xứng đang nhận được rất nhiều sự chú ý trong những ngày này. Họ đưa ra trong bối cảnh của các phương pháp điểm bên trong để tối ưu hóa bị hạn chế.


Cảm ơn bạn rất nhiều vì câu trả lời tuyệt vời. Tôi hiểu hướng tốt là quan trọng trong phương pháp tìm kiếm dòng. Trong phương pháp khu vực tin cậy, hướng tốt cũng quan trọng?
Haitao Du

1
Nó vẫn quan trọng đối với các phương pháp vùng tin cậy. Các phương thức vùng tin cậy về cơ bản hoạt động bằng cách giới hạn kích thước bước ĐẦU TIÊN và sau đó giải quyết cho hướng bước. Nếu bước không đạt được mức giảm mong muốn trong giá trị hàm mục tiêu, bạn giảm giới hạn về kích thước bước và bắt đầu lại. Hãy tưởng tượng rằng thuật toán của bạn để tạo hướng bước không đảm bảo rằng hướng bước là hướng đi xuống. Ngay cả khi bán kính của vùng tin cậy bằng 0, bạn không bao giờ có thể tạo ra một bước có thể chấp nhận (ngay cả khi tồn tại) bởi vì không có hướng nào trong bước của bạn là hướng đi xuống.
Bill Woessner

Phương pháp tìm kiếm dòng về cơ bản thể hiện hành vi tương tự. Nếu hướng tìm kiếm của bạn không phải là hướng đi xuống, thuật toán tìm kiếm dòng có thể không bao giờ tìm thấy độ dài bước có thể chấp nhận - bởi vì không có hướng nào. :-)
Bill Woessner

Câu trả lời tuyệt vời, cảm ơn bạn đã giúp tôi kết nối các mảnh.
Haitao Du

9

Về mặt hình học, một ma trận xác định dương xác định một số liệu , ví dụ như một số liệu Riemannian, vì vậy chúng ta có thể sử dụng ngay các khái niệm hình học.

xyA

d(x,y)=(xy)TA(xy)

Rn

x,y=xTAy
ARn


1
A=I

6

Đã có một số câu trả lời giải thích tại sao ma trận xác định dương đối xứng rất quan trọng, vì vậy tôi sẽ đưa ra câu trả lời giải thích tại sao chúng không quan trọng như một số người, kể cả tác giả của một số câu trả lời đó, nghĩ. Để đơn giản, tôi sẽ giới hạn sự tập trung vào các ma trận đối xứng, và tập trung vào Hessian và tối ưu hóa.

Nếu Chúa đã làm cho thế giới lồi lõm, sẽ không có tối ưu hóa lồi, sẽ chỉ có tối ưu hóa. Tương tự, sẽ không có ma trận xác định dương (đối xứng), sẽ chỉ có ma trận (đối xứng). Nhưng đó không phải là trường hợp, vì vậy hãy đối phó với nó.

Nếu một vấn đề lập trình bậc hai là lồi, nó có thể được giải quyết "một cách dễ dàng". Nếu nó không lồi, vẫn có thể tìm thấy tối ưu toàn cục bằng cách sử dụng các phương thức rẽ nhánh và ràng buộc (nhưng có thể mất nhiều thời gian hơn và nhiều bộ nhớ hơn).

Nếu một phương pháp Newton được sử dụng để tối ưu hóa và Hessian tại một số lần lặp là không xác định, thì không cần thiết phải "hoàn thiện" nó thành sự dứt khoát tích cực. Nếu sử dụng tìm kiếm dòng, có thể tìm thấy hướng của độ cong âm và tìm kiếm dòng được thực hiện dọc theo chúng và nếu sử dụng vùng tin cậy, thì có một số vùng tin cậy đủ nhỏ để giải pháp cho vấn đề vùng tin cậy đạt được giảm dần.

Đối với các phương pháp Quasi-Newton, BFGS (nản chí nếu vấn đề bị hạn chế) và DFP duy trì tính dứt khoát tích cực của xấp xỉ Hessian hoặc nghịch đảo Hessian. Các phương pháp Quasi-Newton khác, chẳng hạn như SR1 (Symmetric Rank One) không nhất thiết phải duy trì độ chính xác dương. Trước khi bạn hoàn toàn bất ngờ về điều đó, đó là một lý do chính đáng để chọn SR1 cho nhiều vấn đề - nếu Hessian thực sự không tích cực xác định dọc theo con đường đến mức tối ưu, sau đó buộc xấp xỉ Quasi-Newton phải là xác định dương có thể dẫn đến một xấp xỉ bậc hai tệ hại cho hàm mục tiêu. Ngược lại, phương pháp cập nhật SR1 "lỏng lẻo như một con ngỗng" và có thể biến đổi một cách rõ ràng sự dứt khoát của nó khi nó diễn ra.

Đối với các vấn đề tối ưu hóa bị ràng buộc phi tuyến, điều thực sự quan trọng không phải là Hessian của hàm mục tiêu, mà là Hessian của Lagrangian. Hessian của Lagrangian có thể là vô hạn ngay cả ở mức tối ưu (và), và thực tế, đó chỉ là phép chiếu của Hessian của Lagrangian vào không gian trống của Jacobian của các ràng buộc hoạt động (tuyến tính và phi tuyến) cần bán tích cực -được xác định ở mức tối ưu. Nếu bạn mô hình Hessian of Lagrangian thông qua BFGS và do đó hạn chế nó là xác định tích cực, nó có thể phù hợp khủng khiếp ở mọi nơi và không hoạt động tốt. Ngược lại, SR1 có thể điều chỉnh giá trị bản địa của nó với những gì nó thực sự "nhìn thấy".

Có nhiều hơn những gì tôi có thể nói về tất cả những điều này, nhưng điều này là đủ để cung cấp cho bạn một hương vị.

Chỉnh sửa : Những gì tôi viết 2 đoạn lên là chính xác. Tuy nhiên, tôi quên chỉ ra rằng nó cũng áp dụng cho các vấn đề bị ràng buộc tuyến tính. Trong trường hợp các vấn đề bị ràng buộc tuyến tính, Hessian của Lagrangian chỉ là (giảm xuống) Hessian của hàm mục tiêu. Vì vậy, điều kiện tối ưu bậc 2 cho mức tối thiểu cục bộ là phép chiếu Hessian của hàm mục tiêu vào khoảng trống của Jacobian của các ràng buộc hoạt động là bán xác định dương. Đáng chú ý nhất, Hessian của hàm mục tiêu không nhất thiết phải là psd ở mức tối ưu, và thường là không, ngay cả đối với các vấn đề bị ràng buộc tuyến tính.



@ GeoMatt22 Bạn đặt cược @ $$ Tôi không. Mặt khác, nếu bạn định tạo (chọn) một hàm mất, thì không cần phải làm cho nó không lồi khi nó không phục vụ mục đích tốt nào ngoài việc chèo thuyền. Thận trọng là phần tốt hơn của valor.
Mark L. Stone

@Mark L. Stone: Điều này thật thú vị! Bạn có thể tham khảo một số tài liệu mà tôi có thể đọc về những điều như vậy?
kjetil b halvorsen

@kjetil b halvorsen. Tìm kiếm dòng với các hướng của dân số độ cong âm.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Vùng tin cậy được bao phủ trong nhiều sách và giấy tờ. Cuốn sách nổi tiếng với giới thiệu tốt về các khu vực đáng tin cậy là amazon.com/ Từ .. Cuốn sách quái vật, hiện đã lỗi thời, là epub.siam.org/doi/book/10.1137/1.9780898719857 . Đối với đoạn cuối cùng của tôi về điều kiện tối ưu, hãy đọc các điều kiện KKT bậc 2
Mark L. Stone

@kjetil b halvorsen Tôi không đề cập đến việc tìm kiếm tối ưu toàn cầu của Chương trình bậc hai không lồi. Phần mềm có sẵn rộng rãi, chẳng hạn như CPLEX, có thể thực hiện việc này, xem ibm.com/support/ledgeledgecenter/SS9UKU_12.6.1/ . Tất nhiên nó không phải lúc nào cũng nhanh, và có thể cần một số bộ nhớ. Tôi đã giải quyết vấn đề tối ưu toàn cầu một số vấn đề tối thiểu hóa QP với hàng chục ngàn biến số có hàng trăm giá trị riêng âm độ lớn đáng kể.
Mark L. Stone

5

Bạn đã trích dẫn một loạt các lý do tại sao SPD quan trọng nhưng bạn vẫn đăng câu hỏi. Vì vậy, dường như với tôi rằng bạn cần trả lời câu hỏi này trước: Tại sao số lượng dương lại quan trọng?

Câu trả lời của tôi là một số lượng phải tích cực để dung hòa với kinh nghiệm hoặc mô hình của chúng tôi. Chẳng hạn, khoảng cách giữa các vật phẩm trong không gian phải dương. Các tọa độ có thể âm, nhưng khoảng cách luôn không âm. Do đó, nếu bạn có một tập dữ liệu và một số thuật toán xử lý nó, bạn có thể sẽ bị hỏng khi bạn cung cấp một khoảng cách âm vào nó. Vì vậy, bạn nói rằng "thuật toán của tôi yêu cầu đầu vào khoảng cách tích cực mọi lúc" và nó sẽ không giống như một nhu cầu vô lý.

i(xiμ)2/n
xi

Vì vậy, ma trận phương sai hiệp phương sai là bán xác định dương, tức là "không âm" trong phép loại suy này. Ví dụ về thuật toán yêu cầu điều kiện này là phân tách Cholesky, nó rất tiện dụng. Nó thường được gọi là "căn bậc hai của ma trận". Vì vậy, giống như căn bậc hai của một số thực đòi hỏi không âm, Cholesky muốn ma trận không âm. Chúng tôi không tìm thấy sự hạn chế này khi xử lý các ma trận hiệp phương sai bởi vì chúng luôn luôn như vậy.

Vì vậy, đó là câu trả lời thực dụng của tôi. Các ràng buộc như không âm hoặc SPD cho phép chúng tôi xây dựng thuật toán tính toán hiệu quả hơn hoặc các công cụ mô hình hóa thuận tiện có sẵn khi đầu vào của bạn đáp ứng các ràng buộc này.


3

Dưới đây là hai lý do nữa chưa được đề cập cho lý do tại sao ma trận bán chính xác là quan trọng:

  1. Ma trận Laplacian đồ thị chiếm ưu thế theo đường chéo và do đó PSD.

  2. Semidefinitity tích cực xác định một thứ tự một phần trên tập hợp các ma trận đối xứng (đây là nền tảng của lập trình semidefinite).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.