Câu hỏi về PCA: khi nào PC độc lập? Tại sao PCA nhạy cảm với tỷ lệ? Tại sao PC bị hạn chế là trực giao?

Tôi đang cố gắng để hiểu một số mô tả về PCA (hai phần đầu là từ Wikipedia), nhấn mạnh thêm:

Các thành phần chính được đảm bảo độc lập chỉ khi tập dữ liệu được phân phối chung .

Là sự độc lập của các thành phần chính rất quan trọng? Làm thế nào tôi có thể hiểu mô tả này?

PCA rất nhạy cảm với tỷ lệ tương đối của các biến ban đầu.

"Chia tỷ lệ" nghĩa là gì ở đó? Bình thường hóa các kích thước khác nhau?

Phép biến đổi được định nghĩa theo cách sao cho thành phần chính đầu tiên có phương sai lớn nhất có thể và lần lượt từng thành phần tiếp theo có phương sai cao nhất theo ràng buộc là nó trực giao với các thành phần trước .

Bạn có thể giải thích sự hạn chế này?

pca dimensionality-reduction

— kamana
nguồn

# 2 chỉ áp dụng nếu PCA được thực hiện bằng cách định vị lại ma trận hiệp phương sai. Nếu nó được thực hiện bằng cách xuất tinh của ma trận tương quan, thì PCA không nhạy cảm với tỷ lệ.

— Alexis

@Alexis Cảm ơn bạn cho bài viết của bạn. Đối với mục số 2, bạn có phiền giải thích ý nghĩa của 'nghĩa là gì không? sự thay đổi động của kích thước tương ứng của dữ liệu?

— kakanana

"Thu nhỏ" có thể có nghĩa là một vài điều. (1) Nó có thể có nghĩa là biến đổi tuyến tính của dữ liệu , chẳng hạn như , trong đó và ; hoặc (2) rằng các biến riêng lẻ trong đều được đo trên cùng một thang đo và có phương sai kích thước chặt chẽ. Nhận xét của tôi áp dụng cho cả hai ý nghĩa này.

X

$\mathbf{X}$

X^{*} = a + b X

$\mathbf{X^{*}} = a + b\mathbf{X}$

- \infty < a < \infty

$-\infty < a < \infty$

0 < b < \infty

$0 < b < \infty$

X

$\mathbf{X}$

— Alexis

Q1. Các thành phần chính là các biến trực giao (không tương quan) lẫn nhau . Tính trực giao và tính độc lập thống kê không phải là từ đồng nghĩa . Không có gì đặc biệt về các thành phần chính; điều tương tự cũng đúng với bất kỳ biến nào trong phân tích dữ liệu đa biến. Nếu dữ liệu là đa biến thông thường ( không giống như để nói rằng mỗi biến là bình thường đơn nhất) và các biến không tương quan, thì có, chúng là độc lập. Cho dù tính độc lập của các thành phần chính có quan trọng hay không - phụ thuộc vào cách bạn sẽ sử dụng chúng. Rất thường xuyên, tính trực giao của họ sẽ đủ.

Quý 2 Có, chia tỷ lệ có nghĩa là thu hẹp hoặc kéo dài phương sai của các biến riêng lẻ. Các biến là kích thước của không gian mà dữ liệu nằm trong. Kết quả PCA - các thành phần - rất nhạy cảm với hình dạng của đám mây dữ liệu, hình dạng của "ellipsoid" đó. Nếu bạn chỉ tập trung vào các biến, hãy để các phương sai như hiện tại, điều này thường được gọi là "PCA dựa trên hiệp phương sai". Nếu bạn cũng chuẩn hóa các biến thành phương sai = 1, thì điều này thường được gọi là "PCA dựa trên mối tương quan" và nó có thể rất khác so với trước đây (xem một chủ đề ). Ngoài ra, những người tương đối hiếm khi làm PCA trên dữ liệu không tập trung: dữ liệu thô hoặc chỉ được thu nhỏ theo đơn vị; kết quả của PCA như vậy khác với nơi bạn tập trung dữ liệu (xem hình ).

H3 "Ràng buộc" là cách PCA hoạt động (xem một chủ đề lớn ). Hãy tưởng tượng dữ liệu của bạn là đám mây 3 chiều (3 biến, điểm); nguồn gốc được đặt ở tâm (trung bình) của nó. PCA vẽ thành phần 1 như một trục thông qua gốc tọa độ, tổng các hình chiếu bình phương (tọa độ) trên đó được tối đa hóa ; có nghĩa là, phương sai dọc theo thành phần1 được tối đa hóa. Sau khi thành phần 1 được xác định, nó có thể được loại bỏ dưới dạng thứ nguyên, có nghĩa là các điểm dữ liệu được chiếu lên mặt phẳng trực giao với thành phần đó. Bạn bị bỏ lại với một đám mây 2 chiều. Sau đó, một lần nữa, bạn áp dụng quy trình tìm trục tối đa ở trên $n$ phương sai - bây giờ trong đám mây 2D còn sót lại này. Và đó sẽ là thành phần2. Bạn loại bỏ thành phần đã vẽ 2 từ mặt phẳng bằng cách chiếu các điểm dữ liệu lên đường trực giao với nó. Dòng đó, đại diện còn lại 1D đám mây, được định nghĩa là phần cuối cùng, thành phần 3. Bạn có thể thấy rằng trên mỗi 3 "bước", phân tích a) tìm thấy kích thước của phương sai lớn nhất trong dòng không gian ba chiều , b) giảm dữ liệu xuống các kích thước mà không có kích thước đó, nghĩa là, không gian trực giao chiều chiều trực giao với kích thước được đề cập. Đó là cách nó chỉ ra rằng mỗi thành phần chính là một "phương sai tối đa" và tất cả các thành phần là trực giao lẫn nhau (xem thêm ). $p$ $p-1$

[ PS Xin lưu ý rằng "trực giao" có nghĩa là hai điều: (1) các trục biến là trục vuông góc vật lý; (2) các biến như không tương quan với dữ liệu của họ. Với PCA và một số phương pháp đa biến khác, hai điều này là giống nhau. Nhưng với một số phân tích khác (ví dụ phân tích phân biệt đối xử), các biến tiềm ẩn được trích xuất không tương thích không tự động có nghĩa là các trục của chúng vuông góc trong không gian ban đầu.]

— ttnphns
nguồn

+1 (từ lâu rồi). Các độc giả tương lai cũng có thể muốn đọc câu trả lời cho câu hỏi này: Tại sao các thành phần chính trong PCA (hàm riêng của ma trận hiệp phương sai) cùng trực giao? - nó được đánh dấu là bản sao của cái này, nhưng chứa một số câu trả lời hữu ích.

— amip

@ttnphns Trong PS bạn đã viết "hai điều này giống nhau". Tôi thấy phrasing hơi khó hiểu. Nếu tôi nghĩ về PCA như là một sự thay đổi cơ sở, thì việc nói rằng cơ sở mới là trực giao không giống như nói rằng các tính năng mới (tức là sau khi thay đổi cơ sở) là không tương thích (tôi có thể tìm thấy một cơ sở trực giao khác sao cho các tính năng mới có tương quan). Tôi nhận ra rằng PCA đảm bảo rằng cả PC đều không tương thích và các trục chính là trực giao, nhưng tại sao những thứ này lại giống nhau?

— Oren Milman

@ttnphns cũng vậy, có lẽ sẽ hữu ích khi liên kết đến câu trả lời này ? Nó giúp tôi giải tỏa một số nhầm lẫn liên quan đến tính trực giao và không tương quan của các biến ngẫu nhiên, vì theo một số định nghĩa chúng giống nhau, và theo một số định nghĩa chúng chỉ giống nhau cho các biến trung tâm ..

— Oren Milman

@orenmn, cảm ơn bạn đã bình luận về tính trực giao. Tuy nhiên, trong phần chú thích của tôi, tôi đã nói về tính trực giao của các trục , chứ không phải các vectơ dữ liệu. Hãy theo liên kết tôi đã đưa ra để chứng minh.

— ttnphns