Cameron PCA (Phân tích thành phần chính) bao gồm dữ liệu có nghĩa là gì?


8

Tôi đã đọc một số ghi chú và nó nói rằng PCA có thể "thu thập dữ liệu". Cái mà họ định nghĩa với tôi là "sphering data" đang chia mỗi chiều cho căn bậc hai của giá trị riêng tương ứng.

Tôi giả định rằng theo "chiều", chúng có nghĩa là mỗi vectơ cơ sở mà chúng ta đang chiếu (tức là các hàm riêng mà chúng ta đang chiếu). Vì vậy, tôi đoán họ đang làm:

ui=uieigenValue(ui)

trong đó là một trong những hàm riêng (tức là một trong các thành phần chính). Sau đó, với vectơ mới đó, tôi giả sử họ đang chiếu dữ liệu thô mà chúng ta có, giả sử thành . Vì vậy, các điểm dự kiến ​​bây giờ sẽ là:uix(i)z(i)

z(i)=uix(i)

Họ tuyên bố rằng làm điều này đảm bảo rằng tất cả các tính năng có cùng phương sai.

Tuy nhiên, tôi thậm chí không chắc cách giải thích của tôi về ý nghĩa của chúng bằng cách viết là đúng và muốn kiểm tra xem nó có đúng không. Ngoài ra, ngay cả khi nó là chính xác, điểm quan trọng của việc làm một cái gì đó như thế này là gì? Tôi biết họ tuyên bố rằng nó đảm bảo mọi người đều có cùng một phương sai, nhưng tại sao chúng ta lại muốn làm điều này và làm thế nào để đạt được điều này?


2
Những gì bạn nói là đúng. ulà giá trị của eigenvector và liên quan đến giá trị PC thô. u'được gọi là tải và có liên quan đến các giá trị PC được chuẩn hóa (bằng nhau). Bạn có thể muốn đọc câu trả lời của tôi về nó: stats.stackexchange.com/a353653/3277 .
ttnphns

Nói cách khác, bạn có thể tính toán các giá trị PC thô và sau đó để chuẩn hóa chúng thành phương sai (đơn vị) bằng nhau. Hoặc, để có được kết quả tương tự, trước tiên bạn có thể tính toán tải và sau đó tính giá trị PC với sự trợ giúp của chúng.
ttnphns


Đối với những gì đáng giá, hầu hết mọi người sẽ không coi việc sử dụng 'sphere' này như một động từ là phong cách tiếng Anh rất tốt, ngay cả khi nó có thể hiểu được.
nekomatic

Câu trả lời:


4

Hiểu biết của bạn là đúng. Hãy xem con số này thể hiện các khả năng khác nhau của các điểm dữ liệu của bạn: http://shapeofdata.files.wordpress.com/2013/02/pca22.png

Chúng trông giống hình elip. Nếu bạn làm những gì bạn đã mô tả ở trên, tức là nén các điểm theo hướng mà chúng được trải rộng nhất (khoảng 45 độ trong hình ảnh), các điểm sẽ nằm trong một vòng tròn (hình cầu ở kích thước cao hơn).

Một lý do khiến bạn tập trung dữ liệu là trong khi thực hiện dự đoán và hiểu tọa độ nào là quan trọng. Giả sử bạn muốn dự đoán bằng và và bạn nhận được các giá trị hệ số và tức là . Bây giờ nếu và có cùng phương sai, tức là họ đang xấp xỉ phân phối hình cầu, và bạn thấy rằng khi , bạn có thể giải thích điều này đã nói rằng ảnh hưởng hơn . Nếu quy mô của họ không giống nhau, vàx 1 x 2 β 1 β 2 y ~ β 1 x 1 + β 2 x 2 x 1 x 2 β 1 = 1 β 2 = 10 x 2 y x 1 x 1 x 2 β 1 β 2 yyx1x2β1β2yβ1x1+β2x2x1x2β1=1β2=10x2yx1x1 được phân phối nhiều hơn 10 lần so với , sau đó bạn sẽ nhận được các giá trị trên của và ngay cả khi cả hai đều ảnh hưởng đến như nhau. Để tóm tắt, bạn "spherify" hoặc "bình thường hóa" để suy luận về tầm quan trọng của biến từ hệ số của nó.x2β1β2y

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.