Tôi nghĩ rằng những gì chủ yếu cần được thêm vào danh sách của bạn là coplots , nhưng chúng ta hãy làm việc theo cách đó. Điểm bắt đầu để hình dung hai biến liên tục phải luôn là một biểu đồ phân tán. Với nhiều hơn hai biến, tổng quát hóa một cách tự nhiên thành ma trận phân tán (mặc dù nếu bạn có nhiều biến, bạn có thể cần chia nó thành nhiều ma trận, xem: Cách trích xuất thông tin từ ma trận phân tán khi bạn có N lớn, rời rạc dữ liệu, & nhiều biến? ). Điều cần nhận ra là một ma trận phân tán là một tập hợp các hình chiếu biên 2D từ một không gian có chiều cao hơn. Nhưng những lợi nhuận đó có thể không phải là thú vị nhất hoặc nhiều thông tin. Chính xác màlề bạn có thể muốn xem là một câu hỏi khó (xem, theo đuổi phép chiếu ), nhưng bộ tiếp theo đơn giản nhất có thể kiểm tra là tập hợp làm cho các biến trực giao, tức là phân tán các biến do phân tích thành phần chính . Bạn đề cập đến việc sử dụng điều này để giảm dữ liệu và xem xét biểu đồ phân tán của hai thành phần chính đầu tiên. Suy nghĩ đằng sau đó là hợp lý, nhưng bạn không cần chỉ nhìn vào hai cái đầu tiên, những cái khác có thể đáng để khám phá ( ví dụ , ví dụ về PCA nơi PC có phương sai thấp là có ích , bạn có thể / nên thực hiện một ma trận phân tán của những người, quá. Một khả năng khác với đầu ra của PCA là tạo ra một biplot, trùng lặp cách các biến ban đầu có liên quan đến các thành phần chính (dưới dạng mũi tên) trên đỉnh của biểu đồ phân tán. Bạn cũng có thể kết hợp một ma trận phân tán của các thành phần chính với các biplots.
Tất cả những điều trên là cận biên, như tôi đã đề cập. Một coplot là có điều kiện (phần trên của câu trả lời của tôi ở đây tương phản với điều kiện so với biên). Theo nghĩa đen, 'coplot' là một từ được pha trộn từ 'cốt truyện có điều kiện'. Trong một coplot, bạn đang lấy các lát (hoặc tập hợp con) của dữ liệu trên các kích thước khác và vẽ dữ liệu trong các tập hợp con đó trong một loạt các biểu đồ phân tán. Khi bạn tìm hiểu cách đọc chúng, chúng là một bổ sung hay cho tập hợp các tùy chọn của bạn để khám phá các mẫu trong dữ liệu chiều cao hơn.
Để minh họa những ý tưởng này, đây là một ví dụ với bộ dữ liệu RandU (dữ liệu giả ngẫu nhiên được tạo bởi một thuật toán phổ biến trong những năm 1970):
data(randu)
windows()
pairs(randu)
pca = princomp(randu)
attr(pca$scores, "dimnames")[[1]][1:400] = "o"
windows()
par(mfrow=c(3,3), mar=rep(.5,4), oma=rep(2,4))
for(i in 1:3){
for(j in 1:3){
if(i<j){
plot(y=pca$scores[,i], x=pca$scores[,j], axes=FALSE); box()
} else if(i==j){
plot(density(pca$scores[,i]), axes=FALSE, main=""); box()
text(0, .5, labels=colnames(pca$scores)[i])
} else {
biplot(pca, choices=c(j,i), main="", xaxp=c(-10,10,1), yaxp=c(-10,10,1))
}
}
}
windows()
coplot(y~x|z, randu)