Tôi đang cố gắng để có được sự hiểu biết trực quan về cách phân tích thành phần chính (PCA) hoạt động trong không gian chủ đề (kép) .
Xem xét tập dữ liệu 2D có hai biến, và và điểm dữ liệu (ma trận dữ liệu là và được coi là trung tâm). Cách trình bày thông thường của PCA là chúng tôi xem xét điểm trong , viết ra ma trận hiệp phương sai và tìm giá trị riêng & giá trị riêng; PC đầu tiên tương ứng với hướng của phương sai tối đa, v.v ... Dưới đây là một ví dụ với ma trận hiệp phương sai . Các đường màu đỏ hiển thị các hàm riêng được chia tỷ lệ theo căn bậc hai của các giá trị riêng tương ứng.
Bây giờ hãy xem xét những gì xảy ra trong không gian chủ đề (tôi đã học thuật ngữ này từ @ttnphns), còn được gọi là không gian kép (thuật ngữ được sử dụng trong học máy). Đây là một không gian ba chiều, nơi các mẫu của hai biến của chúng tôi (hai cột ) hình thức hai vectơ và . Độ dài bình phương của mỗi vectơ biến đổi bằng phương sai của nó, cosin của góc giữa hai vectơ bằng với tương quan giữa chúng. Đại diện này, bằng cách này, là rất tiêu chuẩn trong điều trị hồi quy bội. Trong ví dụ của tôi, không gian chủ đề trông như thế (tôi chỉ hiển thị mặt phẳng 2D được kéo dài bởi hai vectơ biến):
Các thành phần chính, là sự kết hợp tuyến tính của hai biến, sẽ tạo thành hai vectơ và trong cùng một mặt phẳng. Câu hỏi của tôi là: sự hiểu biết / trực giác hình học về cách hình thành các vectơ biến thành phần chính bằng cách sử dụng các vectơ biến ban đầu trên một biểu đồ như vậy là gì? Cho và , quy trình hình học nào sẽ mang lại ?
Dưới đây là sự hiểu biết một phần hiện tại của tôi về nó.
Trước hết, tôi có thể tính toán các thành phần / trục chính thông qua phương thức tiêu chuẩn và vẽ chúng trên cùng một hình:
Hơn nữa, chúng ta có thể lưu ý rằng được chọn sao cho tổng khoảng cách bình phương giữa (vectơ màu xanh) và các phép chiếu của chúng trên là tối thiểu; những khoảng cách đó là lỗi tái cấu trúc và chúng được hiển thị với các đường đứt nét màu đen. Tương đương, tối đa hóa tổng độ dài bình phương của cả hai hình chiếu. Điều này chỉ định đầy đủ và tất nhiên là hoàn toàn tương tự với mô tả tương tự trong không gian chính (xem hoạt hình trong câu trả lời của tôi để hiểu về phân tích thành phần chính, hàm riêng & giá trị riêng ). Xem thêm phần đầu tiên của câu trả lời của @ ttnphns'es tại đây .
Tuy nhiên, điều này là không đủ hình học! Nó không cho tôi biết cách tìm như vậy và không chỉ định độ dài của nó.
Tôi đoán là , , và đều nằm trên một hình elip có tâm ở với và là các trục chính của nó. Đây là cách nó trông giống như trong ví dụ của tôi:x 2 p 1 p 2 0 p 1 p 2
Câu 1: Làm thế nào để chứng minh điều đó? Trình diễn đại số trực tiếp dường như rất tẻ nhạt; Làm thế nào để thấy rằng đây phải là trường hợp?
Nhưng có nhiều hình elip khác nhau tập trung ở và đi qua x 1 và x 2 :
Câu 2: Điều gì chỉ định hình elip "đúng"? Tôi đoán đầu tiên là đó là hình elip với trục chính dài nhất có thể; nhưng nó có vẻ sai (có những hình elip với trục chính có độ dài bất kỳ).
Nếu có câu trả lời cho Q1 và Q2, thì tôi cũng muốn biết liệu chúng có khái quát cho trường hợp có nhiều hơn hai biến không.
variable space (I borrowed this term from ttnphns)
- @amoeba, bạn phải nhầm. Các biến dưới dạng vectơ trong không gian n chiều (ban đầu) được gọi là không gian chủ thể (n chủ thể là trục "xác định" không gian trong khi p biến "trải" nó). Không gian biến đổi , ngược lại, ngược lại - tức là phân tán thông thường. Đây là cách thuật ngữ được thiết lập trong thống kê đa biến. (Nếu trong học máy thì khác - tôi không biết điều đó - thì nó tệ hơn nhiều đối với người học.)
My guess is that x1, x2, p1, p2 all lie on one ellipse
Điều gì có thể là viện trợ heuristic từ hình elip ở đây? Tôi nghi ngờ điều đó.