Đầu tiên, có nhiều cách khác nhau để xây dựng cái gọi là biplots trong trường hợp phân tích tương ứng. Trong mọi trường hợp, ý tưởng cơ bản là tìm cách hiển thị xấp xỉ 2D tốt nhất về "khoảng cách" giữa các ô hàng và ô cột. Nói cách khác, chúng tôi tìm kiếm một hệ thống phân cấp (chúng tôi cũng nói về "phong chức") về mối quan hệ giữa các hàng và cột của bảng dự phòng.
Rất ngắn gọn, CA phân tách thống kê chi bình phương liên quan đến bảng hai chiều thành các yếu tố trực giao giúp tối đa hóa sự phân tách giữa điểm hàng và cột (tức là tần số được tính từ bảng cấu hình). Ở đây, bạn thấy rằng có một số kết nối với PCA nhưng thước đo phương sai (hoặc số liệu) được giữ lại trong CA là , chỉ phụ thuộc vào cấu hình cột (Vì nó có xu hướng quan trọng hơn đối với các phương thức có quy mô lớn giá trị cận biên, chúng ta cũng có thể cân lại dữ liệu ban đầu, nhưng đây là một câu chuyện khác).χ2
Dưới đây là một câu trả lời chi tiết hơn. Việc triển khai được đề xuất trong corresp()
hàm (in MASS
) theo quan điểm của CA dưới dạng phân rã SVD của ma trận mã hóa giả đại diện cho các hàng và cột (sao cho , với là tổng mẫu). Đây là trong ánh sáng với phân tích tương quan kinh điển. Ngược lại, trường phân tích dữ liệu của Pháp coi CA là một biến thể của PCA, nơi bạn tìm kiếm các hướng tối đa hóa "quán tính" trong đám mây dữ liệu. Điều này được thực hiện bằng cách chéo hóa ma trận quán tính được tính toán từ bảng hai chiều được căn giữa và theo tỷ lệ (theo tần số biên) và biểu thị các cấu hình hàng và cột trong hệ tọa độ mới này.RtC= NN
Nếu bạn xem xét một bảng có hàng và cột , thì mỗi hàng được tính theo tổng biên tương ứng của nó, tạo ra một chuỗi tần số có điều kiện liên quan đến mỗi hàng: . Cột cận biên được gọi là hồ sơ trung bình (cho các hàng). Điều này cho chúng ta một vectơ tọa độ, còn được gọi là hồ sơ (theo hàng). Đối với cột, chúng ta có . Trong cả hai trường hợp, chúng tôi sẽ xem xét các cấu hình hàng (được liên kết với trọng số của chúng ) như các cá nhân trong không gian cột và các cấu hình cột (được liên kết với trọng số của chúngi = 1 , góc , tôij = 1 , ... , Jfj | tôi= ntôi j/ ni ⋅ftôi | j= ntôi j/ n⋅ jtôifi ⋅Jf⋅ j ) là các cá nhân trong không gian hàng. Số liệu được sử dụng để tính khoảng cách giữa hai cá nhân là khoảng cách . Chẳng hạn, giữa hai hàng và , chúng ta cóχ2tôii′
d2χ2(i,i′)=∑j=1Jnn⋅j(nijni⋅−ni′jni′⋅)2
Bạn cũng có thể thấy liên kết với thống kê bằng cách lưu ý rằng đó chỉ đơn giản là khoảng cách giữa số lượng được quan sát và số lượng dự kiến, trong đó số lượng dự kiến (theo , tính độc lập của hai biến) được tính là cho mỗi ô . Nếu hai biến là độc lập, các cấu hình hàng sẽ hoàn toàn bằng nhau và giống hệt với cấu hình biên tương ứng. Nói cách khác, khi có sự độc lập, bảng dự phòng của bạn hoàn toàn được xác định bởi tỷ suất lợi nhuận của nó.H 0 n i ⋅ × n ⋅ j / n ( i , j )χ2H0ni⋅×n⋅j/n(i,j)
Nếu bạn nhận ra PCA trên các cấu hình hàng (được xem là các cá nhân), hãy thay thế khoảng cách euclide bằngcos 2 i j χ 2χ2khoảng cách, sau đó bạn nhận được CA. Trục chính đầu tiên là đường gần nhất với tất cả các điểm và giá trị riêng tương ứng là quán tính được giải thích bởi thứ nguyên này. Bạn có thể làm tương tự với các cấu hình cột. Có thể chỉ ra rằng có một sự đối xứng giữa hai cách tiếp cận và cụ thể hơn là các thành phần chính (PC) cho các cấu hình cột được liên kết với cùng một giá trị riêng so với PC cho các cấu hình hàng. Những gì được hiển thị trên một biplot là tọa độ của các cá nhân trong hệ tọa độ mới này, mặc dù các cá nhân được thể hiện trong một không gian giai thừa riêng biệt. Với điều kiện mỗi cá nhân / phương thức được thể hiện tốt trong không gian giai thừa của nó (bạn có thể xemcos2về phương thức với trục chính thứ 1, là thước đo tương quan / liên kết), bạn thậm chí có thể giải thích khoảng cách giữa các phần tử và của bảng dự phòng của bạn (có thể được thực hiện bằng cách xem phần dư của của bạn bài kiểm tra tính độc lập, vd ).ijχ2chisq.test(tab)$expected-chisq.test(tab)$observed
Tổng quán tính của CA của bạn (= tổng giá trị bản địa) là thống kê chia cho (là Pearson's ). n ϕ 2χ2nϕ2
Trên thực tế, có một số gói có thể cung cấp cho bạn với CA tăng cường so với các chức năng có sẵn trong MASS
gói: ade4 , FactoMineR , anacor , và ca .
Mới nhất là một trong đó đã được sử dụng để minh hoạ cụ thể của bạn, và một bài báo được công bố trên Tạp chí của phần mềm thống kê giải thích hầu hết functionnalities của nó: Phân tích Correspondence trong R, với đồ họa hai bánh, ba chiều: Các ca Package .
Vì vậy, ví dụ của bạn về màu mắt / tóc có thể được sao chép theo nhiều cách:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
Trong tất cả các trường hợp, những gì chúng ta đọc trong biplot kết quả về cơ bản (tôi giới hạn cách hiểu của tôi ở trục thứ 1 giải thích hầu hết quán tính):
- trục thứ nhất làm nổi bật sự đối lập rõ ràng giữa màu tóc sáng và tối, và giữa mắt xanh và nâu;
- những người có mái tóc vàng thường có đôi mắt màu xanh và những người có mái tóc đen thường có đôi mắt nâu.
Có rất nhiều tài nguyên bổ sung về phân tích dữ liệu trên phòng thí nghiệm tin sinh học từ Lyon, Pháp. Điều này chủ yếu bằng tiếng Pháp, nhưng tôi nghĩ nó sẽ không phải là vấn đề quá lớn đối với bạn. Hai bản phát hành sau đây sẽ rất thú vị khi bắt đầu:
Cuối cùng, khi bạn xem xét một mã hóa disjonctive (giả) đầy đủ của biến, bạn sẽ có được phân tích tương ứng nhiều .k