Giải pháp của một hệ phương trình tuyến tính có thể được xấp xỉ chỉ cho một vài biến đầu tiên không?

15

Tôi có một hệ phương trình tuyến tính có kích thước mxm, trong đó m lớn. Tuy nhiên, các biến mà tôi quan tâm chỉ là n biến đầu tiên (n nhỏ so với m). Có cách nào để tôi có thể tính gần đúng giải pháp cho các giá trị m đầu tiên mà không phải giải toàn bộ hệ thống không? Nếu vậy, phép tính gần đúng này sẽ nhanh hơn giải quyết toàn bộ hệ thống tuyến tính?

linear-algebra approximation

— Paul
nguồn

2

Không trừ khi chức năng cưỡng bức của bạn cũng bị giới hạn ở n biến đầu tiên. Nếu có, bạn có thể tạo thành phần bổ sung Schur, mặc dù nó có thể dày đặc. Nếu toán tử ban đầu của bạn thưa thớt, nó có thể không có giá trị.

— Jack Poulson

1

Tôi cho rằng bạn có thể sử dụng loại bỏ gaussian bắt đầu từ góc dưới bên phải của ma trận. Tốc độ này sẽ nhanh hơn ~ 2 lần so với loại bỏ gaussian thông thường nếu bạn chỉ quan tâm đến một vài yếu tố đầu tiên và dừng lại giữa chừng. Tôi không biết làm thế nào nó sẽ so sánh với các phương pháp lặp.

— Dan

4

@OscarB: Xin vui lòng không. Quy tắc của Cramer là sự tàn bạo trong số học dấu phẩy động. Tôi chưa bao giờ nghe nói về việc nó được sử dụng cho các tính toán nghiêm túc, và cần một lượng suy nghĩ hợp lý để tránh sự phức tạp của giai thừa , nơi nó vẫn không cạnh tranh được với việc loại bỏ Gaussian.

— Jack Poulson

1

@Paul: Hầu hết việc giảm thứ tự mô hình được sử dụng trong bối cảnh các hệ thống ODE hoặc DAE lớn. Đôi khi, các phương pháp giảm được thúc đẩy bởi các hệ thống ODE hoặc DAE phát sinh từ sự rời rạc của các PDE. Tôi chưa thấy giảm mô hình được sử dụng trên các phương trình đại số thuần túy. (Nếu bạn có, xin vui lòng gửi cho tôi tài liệu tham khảo, bởi vì tôi đang làm luận án về các phương pháp giảm mô hình và sẽ rất thích thú khi thấy nó.) Nếu bạn muốn, tôi có thể phác thảo cách giảm mô hình sẽ như thế nào nếu chúng ta điều trị phương trình đại số như là một trường hợp suy biến của hệ phương trình vi phân đại số.

— Geoff Oxberry

1

@JackPoulson - bạn có phiền khi tóm tắt nhận xét của bạn như một câu trả lời không? Tôi nghĩ đó là giải pháp đúng đắn nhất và tôi không muốn nó bị mất trong các bình luận.

— Aron Ahmadia

13

Như những người khác đã chỉ ra, điều này rất khó thực hiện với người giải trực tiếp. Điều đó nói rằng, nó không khó để làm với người giải quyết lặp. Để kết thúc này, lưu ý rằng hầu hết các bộ giải lặp theo cách này hay cách khác đều giảm thiểu lỗi liên quan đến một số chỉ tiêu. Thông thường, định mức này hoặc do chính ma trận gây ra, nhưng đôi khi nó cũng chỉ là định mức vectơ l2. Nhưng đó không phải là trường hợp: bạn có thể chọn định mức nào bạn muốn giảm thiểu lỗi (hoặc dư), và ví dụ, bạn có thể chọn một định mức mà bạn cân nhắc các thành phần bạn quan tâm với 1 và tất cả những người khác có 1e-12, ví dụ như một cái gì đó như (1e-24) $|| x ||^2 = \sum_{i=1}^5 x_i^2 +$ $\sum_{i=6}^N x_i^2$ và tương ứng với sản phẩm vô hướng. Sau đó viết tất cả các bước của bộ giải lặp đối với định mức và sản phẩm vô hướng này, và bạn nhận được một bộ giải lặp chú ý nhiều hơn đến các phần tử vectơ mà bạn quan tâm hơn các phần tử khác.

Câu hỏi tất nhiên là liệu bạn có cần số lần lặp ít hơn so với sản phẩm định mức / vô hướng có trọng lượng như nhau không. Nhưng đó thực sự là trường hợp: giả sử bạn chỉ quan tâm đến năm yếu tố vectơ đầu tiên. Sau đó, bạn cần tối đa năm lần lặp để giảm lỗi theo hệ số 1e12 vì năm lần lặp là điều cần thiết cho hệ thống 5x5 mô tả chúng. Đó không phải là một bằng chứng nhưng tôi khá chắc chắn rằng bạn thực sự nên thoát khỏi số lần lặp nhỏ hơn rất nhiều nếu trọng số trong định mức (1e-12 ở trên) nhỏ hơn dung sai mà bạn muốn giải quyết hệ thống tuyến tính lặp đi lặp lại .

— Wolfgang Bangerth
nguồn

2

Hmm, điểm tốt. Tôi sẽ thích thú khi thấy một ví dụ thực tế, vì tôi hơi lo lắng về những ảnh hưởng của việc chỉ cố gắng giải quyết một vài mức độ tự do; mặc dù phần dư có thể nhỏ, nhưng có lẽ định mức của lỗi vẫn khá lớn (làm để bỏ qua phần lớn toán tử một cách hiệu quả).

— Jack Poulson

Theo trực giác, điều này dường như chỉ hoạt động nếu các thành phần của hệ thống rất nhỏ thực sự chi phối câu trả lời theo L2 (hoặc định mức bạn hiểu lỗi của mình được đo lường). Mặt khác, tôi nghĩ rằng mối quan tâm của Jack là hợp lệ, nhưng tôi chắc chắn sẽ quan tâm đến việc nhìn thấy bằng chứng bằng số về điều này ...

— Aron Ahmadia

Người ta sẽ phải đảm bảo bạn thực hiện một phương pháp giảm thiểu lỗi chứ không phải dư. Tôi nghĩ MinErr có thể là một điểm khởi đầu tốt.

— Wolfgang Bangerth

@WolfgangBangerth: Tôi không quen thuộc với MINERR: đây có phải là tài liệu tham khảo chính không?

— Jack Poulson

1

Ngay cả điều đó là không đủ, bởi vì bạn sẽ không chính xác. Bạn không thể có được một vài thành phần chính xác bằng cách sử dụng trọng số này.

— Matt Knepley

17

Hình thành bổ sung Schur

Giả sử rằng bạn đã hoán vị và phân vùng ma trận của bạn thành biểu mẫu

A = (\begin{array}{cc} A_{11} & A_{12} \\ A_{21} & A_{22} \end{array}),

$A=\left(\begin{array}{cc}A_{11} & A_{12} \\ A_{21} & A_{22}\end{array}\right),$

sao cho chứa mức độ tự do quan tâm của bạn và nhỏ hơn nhiều so với $A_{22}$ , sau đó người ta có thể tạo thành phần bù Schur $A_{11}$

S_{22} := A_{22} - A_{21} A_{11}^{- 1} A_{12},

$S_{22} := A_{22} - A_{21} A_{11}^{-1} A_{12},$

hoặc thông qua một nhân tố LU nhìn đúng một phần hoặc công thức rõ ràng, và sau đó có thể được hiểu theo nghĩa sau: $S_{22}$

S_{22} x = y \to (\begin{array}{cc} A_{11} & A_{12} \\ A_{21} & A_{22} \end{array}) (\begin{matrix} ⋆ \\ x \end{matrix}) = (\begin{matrix} 0 \\ y \end{matrix}),

$S_{22} x = y \;\;\rightarrow\;\; \left(\begin{array}{cc}A_{11} & A_{12}\\ A_{21} & A_{22}\end{array}\right) \left(\begin{array}{c}\star\\ x\end{array}\right)=\left(\begin{array}{c}0\\ y\end{array}\right),$

trong đó đại diện cho phần 'không quan tâm' của giải pháp. Do đó, với điều kiện là bên phải chỉ khác về mức độ tự do của Schur bổ sung , chúng ta chỉ cần giải quyết với để có được phần giải pháp tương ứng với các mức độ tự do đó. $\star$ $S_{22}$ $S_{22}$

Độ phức tạp tính toán trong trường hợp dày đặc không cấu trúc

Thiết để chiều cao của và để chiều cao của , sau đó các phương pháp tiêu chuẩn để tính là lần đầu tiên yếu tố (chúng ta hãy bỏ qua xoay vòng cho bây giờ) trong khoảng $N$ $A$ $n$ $A_{22}$ $S_{22}$ $L_{11} U_{11} := A_{11}$ $2/3 (N-n)^3$ công việc, sau đó hình thành

S_{22} := A_{22} - (A_{21} U_{11}^{- 1}) (L_{11}^{- 1} A_{12}) = A_{22} - A_{21} A_{11}^{- 1} A_{12}

$S_{22} := A_{22} - (A_{21} U_{11}^{-1})(L_{11}^{-1} A_{12}) = A_{22} - A_{21} A_{11}^{-1} A_{12}$

sử dụng hai phép giải tam giác yêu cầu hoạt động, và sau đó thực hiện cập nhật lên trong . $n(N-n)^2$ $A_{22}$ $2n^2 (N-n)$

Như vậy, tổng số công việc là khoảng . Khi là rất nhỏ, , vì vậy chi phí có thể được xem là khoảng $2/3 (N-n)^3 + 2n(N-n)^2 + 2n^2 (N-n)$ $n$ $N-n \approx N$ , đó là chi phí của một thừa số đầy đủ. $2/3 N^3$

Lợi ích là, nếu có một số lượng rất lớn các phía bên phải được giải quyết với cùng một hệ phương trình, thì có thể có khả năng được sử dụng lại một số lượng lớn, trong đó mỗi lần giải chỉ cần công việc (chứ không phải hoạt động) nếu được tính. $S_{22}$ $2n^2$ $2N^2$ $S_{22}$

Độ phức tạp tính toán trong trường hợp thưa thớt (điển hình)

Nếu hệ thống thưa thớt của bạn phát sinh từ một số loại xấp xỉ phần tử hữu hạn hoặc phần tử hữu hạn, thì người giải quyết trực tiếp thưa thớt gần như chắc chắn sẽ có thể khai thác một số cấu trúc; Hệ thống 2d có thể được giải quyết với công việc và lưu trữ, trong khi hệ thống 3d có thể được giải quyết với công việc và $O(N^{3/2})$ $O(N \log N)$ $O(N^2)$ lưu trữ. Các hệ thống bao thanh toán sau đó có thể được giải quyết với cùng một lượng công việc như các yêu cầu lưu trữ. $O(N^{4/3})$

Mục đích của việc đưa lên sự phức tạp tính toán là, nếu và bạn có hệ thống 2d, do đó phần bù Schur có thể sẽ dày đặc, độ phức tạp giải quyết được bổ sung Schur bao gồm sẽ là, chỉ thiếu yếu tố logarit so với giải toàn bộ hệ thống! Trong 3d, nó đòi hỏicông việc thay vì $n \approx \sqrt{N}$ $O(n^2) = O(N)$ $O(N)$ $O(N^{4/3})$ .

Do đó, điều quan trọng là phải nhớ rằng, trong trường hợp của bạn trong đó , sẽ chỉ có những khoản tiết kiệm đáng kể nếu bạn làm việc ở nhiều chiều và có nhiều mặt phải để giải quyết. $n=\sqrt{N}$

— Jack Poulson
nguồn

1

Đây là một bản tóm tắt tuyệt vời của phương pháp bổ sung schur và khi nó được sử dụng hiệu quả về mặt tính toán!

— Paul

6

Phương pháp giảm mô hình

Vì Paul đã hỏi, tôi sẽ nói về những gì sẽ xảy ra nếu bạn sử dụng các phương pháp giảm mô hình dựa trên phép chiếu cho vấn đề này. Giả sử rằng bạn có thể đưa ra một máy chiếu sao cho phạm vi của , ký hiệu là , chứa giải pháp cho hệ thống tuyến tính của bạn và có kích thước , trong đó $\mathbf{P}$ $\mathbf{P}$ $\mathcal{R}(\mathbf{P})$ $\mathbf{Ax} = \mathbf{b}$ $k$ $k$ là số lượng ẩn số mà bạn biết muốn giải quyết trong một hệ thống tuyến tính.

Một phân tách giá trị số ít của sẽ mang lại ma trận phân vùng sau: $\mathbf{P}$

P = [\begin{array}{cc} V & * \end{array}] [\begin{array}{cc} d i a g (1_{k}) & 0 \\ 0 & 0 \end{array}] [\begin{matrix} W^{T} \\ * \end{matrix}] .

$\mathbf{P} = \left[ \begin{array}{cc}\mathbf{V} & * \end{array} \right]\left[\begin{array}{cc}\mathrm{diag}(\mathbf{1}_{k}) & \mathbf{0} \\ \mathbf{0} & \mathbf{0}\end{array}\right]\left[\begin{array}{c} \mathbf{W}^{T} \\ *\end{array}\right].$

Các ma trận bị che khuất bởi các ngôi sao quan trọng đối với những thứ khác (như ước tính lỗi, v.v.), nhưng bây giờ, chúng ta sẽ tránh xử lý các chi tiết không liên quan. Nó theo đó

P = {V W}^{T}

$\mathbf{P} = \mathbf{VW}^{T}$

là một phân hủy rank đầy . $\mathbf{P}$

Về cơ bản, bạn sẽ giải quyết hệ thống

P A x = P b

$\mathbf{PAx} = \mathbf{Pb}$

một cách thông minh, bởi vì và $\mathbf{V}$ cũng có tài sản đó . Nhân cả hai bên của bởi và để là một xấp xỉ cho lãi suất $\mathbf{W}$ $\mathbf{W}^{T}\mathbf{V} = \mathbf{I}$ $\mathbf{PAx} = \mathbf{Pb}$ $\mathbf{W}^{T}$ $\mathbf{y} = \mathbf{V}\widehat{\mathbf{x}}$ $\mathbf{x}$

W^{T} A \hat{x} = W^{T} b .

$\mathbf{W}^{T}\mathbf{A}\widehat{\mathbf{x}} = \mathbf{W}^{T}\mathbf{b}.$

Giải quyết cho , premultiply nó bằng , và bạn có , xấp xỉ của bạn cho $\widehat{\mathbf{x}}$ $\mathbf{V}$ $\mathbf{y}$ $\mathbf{x}$ .

Tại sao phương pháp bổ sung Schur có lẽ tốt hơn

Để bắt đầu, bạn phải chọn $\mathbf{P}$ bằng cách nào đó. Nếu giải pháp cho nằm trong , thì và không phải là một xấp xỉ. Mặt khác, và bạn đưa ra một số lỗi gần đúng. Cách tiếp cận này không thực sự tận dụng tất cả các cấu trúc mà bạn đề cập muốn khai thác. Nếu chúng ta chọn sao cho phạm vi của nó là cơ sở đơn vị tiêu chuẩn trong tọa độ của mà bạn muốn tính toán, tọa độ tương ứng của sẽ có lỗi trong đó. Không rõ bạn muốn chọn như thế nào $\mathbf{Ax} = \mathbf{b}$ $\mathcal{R}(\mathbf{P})$ $\mathbf{y} = \mathbf{x}$ $\mathbf{y}$ $\mathbf{y} \neq \mathbf{x}$ $\mathbf{P}$ $\mathbf{x}$ $\mathbf{y}$ . Ví dụ,bạn có thể sử dụng một SVD của và chọn là tích của cácvectơ số ít bên tráiđầu tiêncủa và sự điều chỉnh của cácvectơ số bên phảiđầu tiêncủa , giả sử rằng các vectơ số ít được sắp xếp theo thứ tự giảm dần giá trị số ít. Sự lựa chọn máy chiếu này sẽ tương đương với việc thực hiện phân rã trực giao thích hợp trên và nó sẽ giảm thiểu tối đa L -error trong giải pháp gần đúng. $\mathbf{P}$ $\mathbf{A}$ $\mathbf{P}$ $k$ $\mathbf{A}$ $k$ $\mathbf{A}$ $\mathbf{A}$ $_{2}$

Ngoài việc giới thiệu các lỗi xấp xỉ, phương pháp này cũng giới thiệu thêm ba nhân lên ma trận trên đầu trang của tuyến tính giải quyết của hệ thống nhỏ hơn và các công việc cần thiết để tính toán và . Trừ khi bạn giải quyết cùng một hệ thống tuyến tính rất nhiều, chỉ thay đổi phía bên tay phải và vẫn là ma trận chiếu "tốt" cho tất cả các hệ thống đó, những chi phí bổ sung đó có thể sẽ khiến việc giải quyết hệ thống giảm tốn kém hơn so với giải quyết hệ thống gốc. $\mathbf{V}$ $\mathbf{W}$ $\mathbf{P}$

Những nhược điểm rất giống cách tiếp cận của JackPoulson, ngoại trừ việc bạn không hoàn toàn tận dụng cấu trúc mà bạn đã đề cập.

— Geoff Oxberry
nguồn

4

Câu trả lời dài là ... sắp xếp.

Bạn có thể sắp xếp lại hệ phương trình của mình sao cho bên phải xa nhất $k$ cột là các biến mà bạn muốn giải quyết.

Bước 1: Thực hiện loại bỏ Gaussian để ma trận có dạng tam giác trên. Bước 2: giải quyết bằng cách thay thế trở lại chỉ cho đầu tiên (cuối cùng) $k$ biến mà bạn quan tâm

$n-k$ $n$ lớn như bạn nói. Hãy nhớ rằng một số lượng công việc hợp lý vẫn sẽ phải được thực hiện cho bước 1.

Ngoài ra, hãy nhớ rằng việc hạn chế thứ tự mà bạn sẽ thực hiện thay thế có thể hạn chế hình thức của ma trận (nó làm mất khả năng trao đổi các cột) có thể dẫn đến một hệ thống bị điều hòa, nhưng tôi thì không chắc chắn về điều đó - chỉ cần một cái gì đó để ghi nhớ.

— drjrm3
nguồn

Loại bỏ Gaussian yêu cầu

hoạt động, nhưng thay thế ngược chỉ yêu cầu

O (n^{3})

$O(n^3)$

O (n^{2})

$O(n^2)$

n

$n$

đó là lý do tại sao câu trả lời là "sắp xếp" thay vì "có" =)

— drjrm3

Điều này có nghĩa là nó có thể được thực hiện theo cách này ... Tuy nhiên, phần lớn tính toán trong Loại bỏ Gaussian đang ở giai đoạn loại bỏ về phía trước, mang lại độ phức tạp O (n ^ 3) mặc dù giai đoạn thay thế ngược bị cắt ngắn. Tôi đã hy vọng có một phương pháp nhanh hơn ...

— Paul