Chức năng mục tiêu của PCA là gì?

Phân tích thành phần chính có thể sử dụng phân tách ma trận, nhưng đó chỉ là một công cụ để đạt được điều đó.

Làm thế nào bạn sẽ tìm thấy các thành phần chính mà không sử dụng đại số ma trận?

Hàm mục tiêu (mục tiêu) là gì và các ràng buộc là gì?

pca

— Neil McGuigan
nguồn

Có thể tôi đang thiếu một cái gì đó vì vậy xin vui lòng sửa cho tôi nếu tôi sai, nhưng có thể (ít nhất là về nguyên tắc) để xây dựng những gì được thực hiện trong PCA bằng cách sử dụng ma trận như một vấn đề lập trình tuyến tính (phức tạp), nhưng tôi không biết làm thế nào bạn nêu tất cả các ràng buộc cần thiết. Ngoài ra tôi không chắc chắn rằng sẽ rất đơn giản để làm so với việc chỉ sử dụng PCA. Tại sao bạn cố gắng tránh ma trận?

— Chris Simokat

@Chris Tôi không thấy cách người ta có thể gặp vấn đề về lập trình tuyến tính. Tôi cũng không hiểu rằng ma trận nên tránh trong tính toán . Câu hỏi đặt ra là loại vấn đề nào được PCA giải quyết, và không phải là cách nó được thực hiện (ví dụ bằng cách tính toán SVD). Giải pháp của hồng y nói rằng bạn tìm thấy các hướng trực giao liên tiếp của phương sai cực đại . Giải pháp tôi đã trình bày nói rằng bạn tìm thấy hyperplanes với lỗi tái cấu trúc tối thiểu.

— NRH

@chris Tôi hy vọng tìm được một cách khác để xem PCA, không có đại số ma trận, để tăng thêm sự hiểu biết của tôi về nó.

— Neil McGuigan

@Chris, Bạn có hàm mục tiêu bậc hai và ràng buộc đẳng thức . Ngoài ra, theo công thức trong câu trả lời của @ NRH, bạn có ràng buộc thứ hạng ma trận. Điều đó sẽ không đánh bại chính nó đối với một vấn đề lập trình tuyến tính. @NRH cung cấp một số trực giác tốt, và trên thực tế, có một mối liên hệ rất chặt chẽ giữa hai quan điểm về PCA đã được đưa ra. Có lẽ hợp tác với @NRH, chúng tôi có thể thêm nó vào bài đăng của anh ấy / cô ấy để làm cho toàn bộ câu trả lời đầy đủ hơn.

ℓ_{2}

$\ell_2$

— Đức hồng y

@NRH, Thực ra, tôi như ESL rất nhiều, nhưng tôi nghĩ rằng việc điều trị có của chủ đề này là khá hời hợt, vì nó là đối với nhiều người trong những chủ đề trong cuốn sách. Cụ thể, họ không chứng minh (hoặc thậm chí chỉ định là một bài tập) phần quan trọng của giải pháp cho vấn đề tối ưu hóa bạn đưa ra.

— Đức hồng y

Câu trả lời:

Không cần cố gắng đưa ra một đoạn mồi đầy đủ trên PCA, từ quan điểm tối ưu hóa, chức năng mục tiêu chính là thương số Rayleigh . Ma trận mà số liệu trong thương số là (một số bội số) ma trận hiệp phương sai mẫu trong đó mỗi là một vector của tính năng và là ma trận như vậy mà thứ hàng là .

S = \frac{1}{n} \sum_{i = 1}^{n} x_{i} x_{i}^{T} = X^{T} X / n

$\newcommand{\m}[1]{\mathbf{#1}}\newcommand{\x}{\m{x}}\newcommand{\S}{\m{S}}\newcommand{\u}{\m{u}}\newcommand{\reals}{\mathbb{R}}\newcommand{\Q}{\m{Q}}\newcommand{\L}{\boldsymbol{\Lambda}} \S = \frac{1}{n} \sum_{i=1}^n \x_i \x_i^T = \m{X}^T \m{X} / n$

x_{i}

$\x_i$

p

$p$

X

$\m{X}$

i

$i$

x_{i}^{T}

$\x_i^T$

PCA tìm cách giải quyết một chuỗi các vấn đề tối ưu hóa. Đầu tiên trong chuỗi là vấn đề không bị ràng buộc

\begin{array}{ll} maximize & \frac{u^{T} S u}{u^{T} u}, u \in R^{p} . \end{array}

$\begin{array}{ll} \text{maximize} & \frac{\u^T \S \u}{\u^T\u} \;, \u \in \reals^p \> . \end{array}$

Vì, vấn đề không bị ràng buộc ở trên tương đương với vấn đề bị ràng buộc $\u^T \u = \|\u\|_2^2 = \|\u\| \|\u\|$

\begin{array}{ll} maximize & u^{T} S u \\ subject to & u^{T} u = 1 . \end{array}

$\begin{array}{ll} \text{maximize} & \u^T \S \u \\ \text{subject to} & \u^T \u = 1 \>. \end{array}$

Đây là nơi đại số ma trận xuất hiện. Vì là ma trận bán nguyệt dương đối xứng (bằng cách xây dựng!), Nó có phân rã giá trị riêng có dạng trong đó là một Ma trận trực giao (vì vậy ) và là ma trận đường chéo với các mục không âm sao cho . $\S$

S = Q Λ Q^{T},

$\S = \Q \L \Q^T \>,$

Q

$\Q$

Q Q^{T} = I

$\Q \Q^T = \m{I}$

Λ

$\L$

λ_{i}

$\lambda_i$

λ_{1} \geq λ_{2} \geq \dots \geq λ_{p} \geq 0

$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$

Do đó, . Vì bị ràng buộc trong bài toán có định mức là một, nên kể từ , nhờ là trực giao. $\u^T \S \u = \u^T \Q \L \Q^T \u = \m{w}^T \L \m{w} = \sum_{i=1}^p \lambda_i w_i^2$ $\u$ $\m{w}$ $\|\m{w}\|_2 = \|\Q^T \u\|_2 = \|\u\|_2 = 1$ $\Q$

Nhưng, nếu chúng ta muốn tối đa hóa số lượng theo các ràng buộc mà , thì cách tốt nhất chúng ta có thể làm là đặt , nghĩa là, và cho . $\sum_{i=1}^p \lambda_i w_i^2$ $\sum_{i=1}^p w_i^2 = 1$ $\m{w} = \m{e}_1$ $w_1 = 1$ $w_i = 0$ $i > 1$

Bây giờ, sao lưu tương ứng , đó là những gì chúng tôi đã tìm kiếm ở vị trí đầu tiên, chúng tôi nhận được rằng trong đó biểu thị cột đầu tiên của , nghĩa là eigenvector tương ứng với eigenvalue lớn nhất của . Giá trị của hàm mục tiêu sau đó cũng dễ dàng được nhìn thấy là . $\u$

u^{⋆} = Q e_{1} = q_{1}

$\u^\star = \Q \m{e}_1 = \m{q}_1$

q_{1}

$\m{q}_1$

Q

$\Q$

S

$\S$

λ_{1}

$\lambda_1$

Các vectơ thành phần chính còn lại sau đó được tìm thấy bằng cách giải quyết chuỗi (được lập chỉ mục bởi ) các vấn đề tối ưu hóa Vì vậy, vấn đề là như nhau, ngoại trừ việc chúng ta thêm các ràng buộc bổ sung rằng giải pháp phải trực giao với tất cả các giải pháp trước đó trong chuỗi. Nó không phải là khó khăn để mở rộng tranh luận trên quy nạp để chứng minh rằng các giải pháp của thứ vấn đề là, quả thật vậy, , các th eigenvector của . $i$

\begin{array}{ll} maximize & u_{i}^{T} S u_{i} \\ subject to & u_{i}^{T} u_{i} = 1 \\ u_{i}^{T} u_{j} = 0 \forall 1 \leq j < i . \end{array}

$\begin{array}{ll} \text{maximize} & \u_i^T \S \u_i \\ \text{subject to} & \u_i^T \u_i = 1 \\ & \u_i^T \u_j = 0 \quad \forall 1 \leq j < i\>. \end{array}$

i

$i$

q_{i}

$\m{q}_i$

i

$i$

S

$\S$

Giải pháp PCA cũng thường được thể hiện dưới dạng phân tách giá trị số ít của . Để xem lý do tại sao, chúng ta hãy . Khi đó và vì vậy (nói đúng ra, lên tới ký lật) và . $\m{X}$ $\m{X} = \m{U} \m{D} \m{V}^T$ $n \S = \m{X}^T \m{X} = \m{V} \m{D}^2 \m{V}^T$ $\m{V} = \m{Q}$ $\L = \m{D}^2 / n$

Các thành phần chính được tìm thấy bằng cách chiếu lên các vectơ thành phần chính. Từ công thức SVD vừa được đưa ra, dễ dàng nhận thấy rằng $\m{X}$

X Q = X V = U D V^{T} V = U D .

$\m{X} \m{Q} = \m{X} \m{V} = \m{U} \m{D} \m{V}^T \m{V} = \m{U} \m{D} \> .$

Sự đơn giản của việc biểu diễn cả vectơ thành phần chính và chính các thành phần chính về mặt SVD của ma trận các tính năng là một lý do khiến các tính năng SVD nổi bật trong một số phương pháp điều trị PCA.

— hồng y
nguồn

Nếu chỉ cần một vài giá trị / vectơ đầu tiên là cần thiết, Nash và Shlien đưa ra thuật toán gợi nhớ đến phương pháp công suất thông thường để tính toán các giá trị riêng vượt trội. Điều này có thể được OP quan tâm.

— JM không phải là một thống kê

@NRH, Cảm ơn bạn đã bắt (và sửa) lỗi chính tả của tôi trước khi tôi quản lý để xem chúng!

— Đức hồng y

Xin chào @cardinal, cảm ơn bạn đã trả lời. Nhưng có vẻ như bạn đã không đưa ra bước chứng minh tại sao tối ưu hóa tuần tự dẫn đến tối ưu toàn cầu. Bạn có thể vui lòng giải thích về điều đó? Cảm ơn!

— Lifu Huang

Giải pháp được trình bày bởi hồng y tập trung vào ma trận hiệp phương sai mẫu. Một điểm khởi đầu khác là lỗi tái cấu trúc dữ liệu bởi một siêu phẳng q -chiều. Nếu p chiều điểm dữ liệu là mục tiêu là để giải quyết $x_1, \ldots, x_n$

min_{μ, λ_{1}, \dots, λ_{n}, V_{q}} \sum_{i = 1}^{n} | | x_{i} - μ - V_{q} λ_{i} | |^{2}

$\min_{\mu, \lambda_1,\ldots, \lambda_n, \mathbf{V}_q} \sum_{i=1}^n ||x_i - \mu - \mathbf{V}_q \lambda_i||^2$

cho matrix với các cột trực giao và . Điều này cho phép các bậc tốt nhất q -reconstruction được đo bằng tiên đề Ơclit, và các cột của giải pháp là người đầu tiên q vectơ thành phần chính. $p \times q$ $\mathbf{V}_q$ $\lambda_i \in \mathbb{R}^q$ $\mathbf{V}_q$

Đối với cố định , giải pháp cho và (đây là hồi quy) là $\mathbf{V}_q$ $\mu$ $\lambda_i$

μ = \bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} λ_{i} = V_{q}^{T} (x_{i} - \bar{x})

$\mu = \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i \qquad \lambda_i = \mathbf{V}_q^T(x_i - \overline{x})$

Để dễ ghi chú, giả sử rằng đã được căn giữa trong các tính toán sau. Sau đó chúng ta phải giảm thiểu $x_i$

\sum_{i = 1}^{n} | | x_{i} - V_{q} V_{q}^{T} x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - \mathbf{V}_q\mathbf{V}_q^T x_i||^2$

trên với các cột trực giao. Lưu ý rằng là hình chiếu lên không gian cột q chiều. Do đó, vấn đề tương đương với việc giảm thiểu trên bậc q dự báo . Nghĩa là, chúng ta cần tối đa hóa trên xếp hạng q dự đoán , trong đó là ma trận hiệp phương thức mẫu. Hiện nay $\mathbf{V}_q$ $P = \mathbf{V}_q\mathbf{V}_q^T$

\sum_{i = 1}^{n} | | x_{i} - P x_{i} | |^{2} = \sum_{i = 1}^{n} | | x_{i} | |^{2} - \sum_{i = 1}^{n} | | P x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - P x_i||^2 = \sum_{i=1}^n ||x_i||^2 - \sum_{i=1}^n||Px_i||^2$

P

$P$

\sum_{i = 1}^{n} | | P x_{i} | |^{2} = \sum_{i = 1}^{n} x_{i}^{T} P x_{i} = tr (P \sum_{i = 1}^{n} x_{i} x_{i}^{T}) = n tr (P S)

$\sum_{i=1}^n||Px_i||^2 = \sum_{i=1}^n x_i^TPx_i = \text{tr}(P \sum_{i=1}^n x_i x_i^T) = n \text{tr}(P \mathbf{S})$

P

$P$

S

$\mathbf{S}$

tr (P S) = tr (V_{q}^{T} S V_{q}) = \sum_{i = 1}^{q} u_{i}^{T} S u_{i}

$\text{tr}(P\mathbf{S}) = \text{tr}(\mathbf{V}_q^T\mathbf{S}\mathbf{V}_q) = \sum_{i=1}^q u_i^T \mathbf{S} u_i$ trong đó là các cột (trực giao) trong và các đối số được trình bày trong câu trả lời của @ cardinal cho thấy mức tối đa đạt được bằng cách lấy ' s là eigenvector cho với giá trị riêng lớn nhất.

u_{1}, \dots, u_{q}

$u_1, \ldots, u_q$

q

$q$

V_{q}

$\mathbf{V}_q$

u_{i}

$u_i$

q

$q$

S

$\mathbf{S}$

q

$q$

Lỗi tái cấu trúc cho thấy một số khái quát hóa hữu ích, ví dụ như các thành phần chính thưa thớt hoặc tái cấu trúc bởi các đa tạp chiều thấp thay vì hyperplanes. Để biết chi tiết, xem Phần 14,5 trong Các yếu tố của học thống kê .

— NRH
nguồn

(+1) Điểm tốt. Một số gợi ý: Sẽ rất tốt nếu xác định và sẽ thực sự tốt khi đưa ra một bằng chứng ngắn về kết quả. Hoặc, thay vào đó, nó có thể được kết nối với vấn đề tối ưu hóa liên quan đến chỉ số Rayleight. Tôi nghĩ rằng sẽ làm cho câu trả lời cho câu hỏi này rất đầy đủ!

λ_{i}

$\lambda_i$

— Đức hồng y

@cardinal, tôi tin rằng tôi đã hoàn thành các bước còn thiếu trong việc chuyển từ công thức tái cấu trúc sang vấn đề bạn giải quyết.

— NRH

Công việc tốt đẹp. Tôi tin rằng khoảng cách duy nhất còn lại là trong tuyên bố cuối cùng của bạn. Không rõ ràng ngay lập tức rằng tối ưu hóa tổng số cũng giống như thực hiện chuỗi tối ưu hóa trong câu trả lời của tôi. Trên thực tế, tôi không nghĩ rằng nó đi theo trực tiếp, nói chung. Nhưng, nó cũng không cần phải giải quyết ở đây.

— Đức hồng y

@cardinal, nó theo cảm ứng. Bạn cung cấp bắt đầu cảm ứng và trong bước cảm ứng, chọn các vectơ trực giao tối đa hóa tổng và sắp xếp nó sao cho là một vectơ đơn vị trực giao với . Sau đó, bằng kết quả của bạn và theo giả định cảm ứng . Tất nhiên, cơ sở không phải là một cơ sở duy nhất cho không gian ba chiều. Bạn cũng có thể khái quát hóa "đối số kết hợp lồi" mà bạn sử dụng để đưa ra một bằng chứng trực tiếp.

w_{1}, \dots, w_{q}

$w_1, \ldots, w_q$

w_{q}

$w_q$

u_{1}, \dots, u_{q - 1}

$u_1, \ldots, u_{q-1}$

w_{q}^{T} S w_{q} \leq u_{q}^{T} S u_{q}

$w_q^T \mathbf{S} w_q \leq u_q^T \mathbf{S} u_q$

\sum_{i = 1}^{q - 1} w_{i}^{T} S w_{i} \leq \sum_{i = 1}^{q - 1} u_{i}^{T} S u_{i}

$\sum_{i=1}^{q-1} w_i^T \mathbf{S} w_i \leq \sum_{i=1}^{q-1}u_i^T \mathbf{S} u_i$

q

$q$

— NRH

@cardinal, tôi không bắt buộc lồng, chỉ sử dụng xem xét kích thước. Nếu chúng ta có một không gian con chiều, bạn luôn có thể chọn trong không gian đó sao cho nó trực giao với không gian con hai chiều . Sau đó, bạn điền vào -bocation theo bất kỳ cách nào bạn muốn.

q

$q$

w_{q}

$w_q$

(q - 1)

$(q-1)$

w

$w$

— NRH

Xem NIPALS ( wiki ) để biết một thuật toán không sử dụng phân tách ma trận rõ ràng. Tôi cho rằng đó là những gì bạn muốn nói khi bạn nói rằng bạn muốn tránh đại số ma trận vì bạn thực sự không thể tránh đại số ma trận ở đây :)

— JMS
nguồn