Giải thích các sơ đồ phân tích tương ứng 2D

Tôi đã tìm kiếm trên internet rất xa ... Tôi vẫn chưa tìm thấy một tổng quan thực sự tốt về cách diễn giải các sơ đồ phân tích tương ứng 2D. Ai đó có thể cung cấp một số lời khuyên về việc giải thích khoảng cách giữa các điểm?

Có lẽ một ví dụ sẽ giúp ích, đây là một âm mưu được tìm thấy trên nhiều trang web mà tôi đã thấy thảo luận về phân tích tương ứng. Các hình tam giác màu đỏ đại diện cho màu mắt và các chấm đen đại diện cho màu tóc.

văn bản thay thế

Nhìn vào biểu đồ trên, bạn có thể đưa ra một vài tuyên bố về những gì bạn thấy trong các dữ liệu này. Điểm quan tâm về các kích thước và mối quan hệ khác nhau giữa hình tam giác và dấu chấm?

Một lời giải thích về các điểm của câu thơ điểm hàng và việc sử dụng từ "hồ sơ" với trọng tâm cụ thể vào ví dụ sẽ là công cụ.

interpretation correspondence-analysis biplot

— Brandon
nguồn

Ngoài tài khoản tuyệt vời của @ chl bên dưới, hãy xem xét tài khoản này coi CA và PCA đơn giản chỉ là hình thức "phân tích biplot".

— ttnphns

Đầu tiên, có nhiều cách khác nhau để xây dựng cái gọi là biplots trong trường hợp phân tích tương ứng. Trong mọi trường hợp, ý tưởng cơ bản là tìm cách hiển thị xấp xỉ 2D tốt nhất về "khoảng cách" giữa các ô hàng và ô cột. Nói cách khác, chúng tôi tìm kiếm một hệ thống phân cấp (chúng tôi cũng nói về "phong chức") về mối quan hệ giữa các hàng và cột của bảng dự phòng.

Rất ngắn gọn, CA phân tách thống kê chi bình phương liên quan đến bảng hai chiều thành các yếu tố trực giao giúp tối đa hóa sự phân tách giữa điểm hàng và cột (tức là tần số được tính từ bảng cấu hình). Ở đây, bạn thấy rằng có một số kết nối với PCA nhưng thước đo phương sai (hoặc số liệu) được giữ lại trong CA là , chỉ phụ thuộc vào cấu hình cột (Vì nó có xu hướng quan trọng hơn đối với các phương thức có quy mô lớn giá trị cận biên, chúng ta cũng có thể cân lại dữ liệu ban đầu, nhưng đây là một câu chuyện khác). $\chi^2$

Dưới đây là một câu trả lời chi tiết hơn. Việc triển khai được đề xuất trong corresp()hàm (in MASS) theo quan điểm của CA dưới dạng phân rã SVD của ma trận mã hóa giả đại diện cho các hàng và cột (sao cho , với là tổng mẫu). Đây là trong ánh sáng với phân tích tương quan kinh điển. Ngược lại, trường phân tích dữ liệu của Pháp coi CA là một biến thể của PCA, nơi bạn tìm kiếm các hướng tối đa hóa "quán tính" trong đám mây dữ liệu. Điều này được thực hiện bằng cách chéo hóa ma trận quán tính được tính toán từ bảng hai chiều được căn giữa và theo tỷ lệ (theo tần số biên) và biểu thị các cấu hình hàng và cột trong hệ tọa độ mới này. $R^tC=N$ $N$

Nếu bạn xem xét một bảng có hàng và cột , thì mỗi hàng được tính theo tổng biên tương ứng của nó, tạo ra một chuỗi tần số có điều kiện liên quan đến mỗi hàng: . Cột cận biên được gọi là hồ sơ trung bình (cho các hàng). Điều này cho chúng ta một vectơ tọa độ, còn được gọi là hồ sơ (theo hàng). Đối với cột, chúng ta có . Trong cả hai trường hợp, chúng tôi sẽ xem xét các cấu hình hàng (được liên kết với trọng số của chúng ) như các cá nhân trong không gian cột và các cấu hình cột (được liên kết với trọng số của chúng $i=1,\dots,I$ $j=1,\dots,J$ $f_{j|i}=n_{ij}/n_{i\cdot}$ $f_{i|j}=n_{ij}/n_{\cdot j}$ $I$ $f_{i\cdot}$ $J$ $f_{\cdot j}$ ) là các cá nhân trong không gian hàng. Số liệu được sử dụng để tính khoảng cách giữa hai cá nhân là khoảng cách . Chẳng hạn, giữa hai hàng và , chúng ta có $\chi^2$ $i$ $i'$

d_{χ^{2}}^{2} (i, i^{'}) = \sum_{j = 1}^{J} \frac{n}{n_{\cdot j}} {(\frac{n_{i j}}{n_{i \cdot}} - \frac{n_{i^{'} j}}{n_{i^{'} \cdot}})}^{2}

$d^2_{\chi^2}(i,i')=\sum_{j=1}^J\frac{n}{n_{\cdot j}}\left(\frac{n_{ij}}{n_{i\cdot}}-\frac{n_{i'j}}{n_{i'\cdot}} \right)^2$

Bạn cũng có thể thấy liên kết với thống kê bằng cách lưu ý rằng đó chỉ đơn giản là khoảng cách giữa số lượng được quan sát và số lượng dự kiến, trong đó số lượng dự kiến (theo , tính độc lập của hai biến) được tính là cho mỗi ô . Nếu hai biến là độc lập, các cấu hình hàng sẽ hoàn toàn bằng nhau và giống hệt với cấu hình biên tương ứng. Nói cách khác, khi có sự độc lập, bảng dự phòng của bạn hoàn toàn được xác định bởi tỷ suất lợi nhuận của nó. $\chi^2$ $H_0$ $n_{i\cdot}\times n_{\cdot j}/n$ $(i,j)$

Nếu bạn nhận ra PCA trên các cấu hình hàng (được xem là các cá nhân), hãy thay thế khoảng cách euclide bằng $\chi^2$ khoảng cách, sau đó bạn nhận được CA. Trục chính đầu tiên là đường gần nhất với tất cả các điểm và giá trị riêng tương ứng là quán tính được giải thích bởi thứ nguyên này. Bạn có thể làm tương tự với các cấu hình cột. Có thể chỉ ra rằng có một sự đối xứng giữa hai cách tiếp cận và cụ thể hơn là các thành phần chính (PC) cho các cấu hình cột được liên kết với cùng một giá trị riêng so với PC cho các cấu hình hàng. Những gì được hiển thị trên một biplot là tọa độ của các cá nhân trong hệ tọa độ mới này, mặc dù các cá nhân được thể hiện trong một không gian giai thừa riêng biệt. Với điều kiện mỗi cá nhân / phương thức được thể hiện tốt trong không gian giai thừa của nó (bạn có thể xem $\cos^2$ về phương thức với trục chính thứ 1, là thước đo tương quan / liên kết), bạn thậm chí có thể giải thích khoảng cách giữa các phần tử và của bảng dự phòng của bạn (có thể được thực hiện bằng cách xem phần dư của của bạn bài kiểm tra tính độc lập, vd ). $i$ $j$ $\chi^2$ chisq.test(tab)$expected-chisq.test(tab)$observed

Tổng quán tính của CA của bạn (= tổng giá trị bản địa) là thống kê chia cho (là Pearson's ). $\chi^2$ $n$ $\phi^2$

Trên thực tế, có một số gói có thể cung cấp cho bạn với CA tăng cường so với các chức năng có sẵn trong MASSgói: ade4 , FactoMineR , anacor , và ca .

Mới nhất là một trong đó đã được sử dụng để minh hoạ cụ thể của bạn, và một bài báo được công bố trên Tạp chí của phần mềm thống kê giải thích hầu hết functionnalities của nó: Phân tích Correspondence trong R, với đồ họa hai bánh, ba chiều: Các ca Package .

Vì vậy, ví dụ của bạn về màu mắt / tóc có thể được sao chép theo nhiều cách:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

Trong tất cả các trường hợp, những gì chúng ta đọc trong biplot kết quả về cơ bản (tôi giới hạn cách hiểu của tôi ở trục thứ 1 giải thích hầu hết quán tính):

trục thứ nhất làm nổi bật sự đối lập rõ ràng giữa màu tóc sáng và tối, và giữa mắt xanh và nâu;
những người có mái tóc vàng thường có đôi mắt màu xanh và những người có mái tóc đen thường có đôi mắt nâu.

Có rất nhiều tài nguyên bổ sung về phân tích dữ liệu trên phòng thí nghiệm tin sinh học từ Lyon, Pháp. Điều này chủ yếu bằng tiếng Pháp, nhưng tôi nghĩ nó sẽ không phải là vấn đề quá lớn đối với bạn. Hai bản phát hành sau đây sẽ rất thú vị khi bắt đầu:

Cuối cùng, khi bạn xem xét một mã hóa disjonctive (giả) đầy đủ của biến, bạn sẽ có được phân tích tương ứng nhiều . $k$

— chl
nguồn

@Brandon Trục thứ 1 là trục "thống trị" (sáng -> tối) cho cả hai phương thức, nhưng chúng ta cũng có thể thấy rằng trục thứ 1 đối lập với mắt xanh lam và xanh lục với mắt nâu và nâu lục nhạt (tọa độ của chúng có dấu hiệu ngược nhau), và sự kết hợp tóc đỏ / mắt xanh - khá hiếm - đóng góp chủ yếu vào trục yếu tố thứ 2. Vì trục này chỉ giải thích được 9,5% tổng quán tính, nên khá khó để đưa ra kết luận chắc chắn (đặc biệt là các giả thuyết di truyền).

— chl

@Brandon Hai tài liệu tham khảo khác (bằng tiếng Anh lần này): khóa học PBIL ( j.mp/cHZT7X ) và các tài nguyên của Michael Friendly ( j.mp/cYHyVn + vcdvà vcdExtracác gói R, sau này bao gồm một họa tiết đẹp).

— chl

@Brandon Có, một phương thức = một danh mục cho biến của bạn. Đối với câu hỏi thứ 2 của bạn, corlà tương quan bình phương với trục và ctrlà phần đóng góp (nó phải được chia cho 10 để được đọc là%). Vì vậy, "tóc đỏ" đóng góp 55,1% quán tính của trục thứ 2. Theo một nghĩa nào đó, tôi thấy đầu ra FactoMineR "trực quan" hơn ( CA(tab, graph=FALSE)$row$contribcung cấp cho bạn trực tiếp%).

— chl

@chl: wow, đối với một người không biết gì về CCA hoặc "cách của Pháp", đây là một bài đọc tuyệt vời! Cảm ơn nhiều. Tôi cũng tìm thấy điều này với một số googling có thể được quan tâm: www-stat.stanford.edu/~susan/ con / pdfc.pdf

— ars

@ars (+1) Cảm ơn liên kết (không biết về chuyên khảo này, có vẻ thú vị). Những đề xuất tốt nhất của tôi cho những phát triển gần đây thực sự là TẤT CẢ các bài báo của Jan de Leeuw và hai cuốn sách này: Nhiều phân tích tương ứng và phương pháp liên quan từ Greenacre và Phân tích dữ liệu hình học: Từ phân tích tương ứng đến phân tích dữ liệu có cấu trúc từ Le Roux & Rouanet (theo cách của Pháp) .

— chl