Sự phân bố các hệ số tương quan mẫu giữa hai biến bình thường không tương quan là gì?


8

Tôi muốn so sánh các hệ số tương quan bivariate (Pearson's và Spearman's ) với những gì sẽ được mong đợi từ dữ liệu ngẫu nhiên.ρρ

Giả sử rằng chúng ta đo, giả sử, 36 trường hợp trên rất nhiều biến số (1000). (Tôi biết điều này là kỳ quặc, nó được gọi là phương pháp Q. Giả sử thêm rằng mỗi biến số (thường) được phân phối bình thường trong các trường hợp . (Một lần nữa, rất kỳ lạ, nhưng đúng bởi vì mọi người như các trường hợp xếp hạng thứ tự biến người theo trường hợp phân phối bình thường.)

Vì vậy, nếu mọi người sắp xếp ngẫu nhiên , chúng ta sẽ nhận được:

m <- sapply(X = 1:1000, FUN = function(x) rnorm(36))

Bây giờ - vì đây là phương pháp Q - chúng tôi tương quan tất cả các biến người :

cors <- cor(x = m, method = "pearson")

Sau đó, chúng tôi cố gắng vẽ biểu đồ đó và áp dụng phân phối hệ số tương quan của Pearson trong dữ liệu ngẫu nhiên, thực sự khá gần với các mối tương quan quan sát được trong dữ liệu giả mạo của chúng tôi:

library(ggplot2)
cor.data <- cors[upper.tri(cors, diag = FALSE)]  # we're only interested in one of the off-diagonals, otherwise there'd be duplicates
cor.data <- as.data.frame(cor.data)  # that's how ggplot likes it
colnames(cor.data) <- "pearson"
g <- ggplot(data = cor.data, mapping = aes(x = pearson))
g <- g + xlim(-1,1)  # actual limits of pearsons r
g <- g + geom_histogram(mapping = aes(y = ..density..))
g <- g + stat_function(fun = dt, colour = "red", args = list(df = 36-1))
g

Điều này mang lại:

âm mưu mật độ

Đường cong chồng lên rõ ràng là sai. (Cũng lưu ý rằng trong khi lẻ, mật độ trục y thực sự chính xác : bởi vì các giá trị x rất nhỏ, đây là cách diện tích tổng hợp thành một).

Tôi nhớ (mơ hồ) rằng phân phối t có liên quan trong bối cảnh này, nhưng tôi không thể quấn đầu xung quanh làm thế nào để bán nó đúng cách. Cụ thể, mức độ tự do được đưa ra bởi số lượng tương quan (1000 ^ 2 / 2-500), hoặc số lượng quan sát mà các mối tương quan này dựa trên (36)?

Dù bằng cách nào, đường cong chồng lên ở trên rõ ràng là sai.

Tôi cũng bối rối bởi vì, phân phối xác suất của Pearson sẽ cần phải bị giới hạn ( không có giá trị nào vượt quá (-) 1) - nhưng phân phối t không bị giới hạn.

Phân phối nào mô tả của Pearson trong trường hợp này?ρ


Tặng kem:

Dữ liệu trên thực sự được lý tưởng hóa: trong nghiên cứu Q thực tế của tôi, các biến người thực sự có rất ít cột theo phân phối bình thường để sắp xếp các trường hợp mục của họ vào, như vậy:

sắp xếp

Trong thực tế, các biến người thực sự là các trường hợp mục thứ tự xếp hạng, vì vậy Pearson không được áp dụng. Thay vào đó, là một bản sửa lỗi thô và bẩn , thay vào đó tôi đã chọn cho Spearman . Phân phối xác suất có giống với Spearman's không?ρρ


Cập nhật : Nếu bất cứ ai quan tâm, đây là mã R để thực hiện phản hồi tuyệt vời của @ amoeba bên dưới:

library(ggplot2)
cor.data <- cors[upper.tri(cors, diag = FALSE)]  # we're only interested in one of the off-diagonals, otherwise there'd be duplicates
cor.data <- as.data.frame(cor.data)  # that's how ggplot likes it
summary(cor.data)
colnames(cor.data) <- "pearson"
pearson.p <- function(r, n) {
  pofr <- ((1-r^2)^((n-4)/2))/beta(a = 1/2, b = (n-2)/2)
  return(pofr)
}
g <- NULL
g <- ggplot(data = cor.data, mapping = aes(x = pearson))
g <- g + xlim(-1,1)  # actual limits of pearsons r
g <- g + geom_histogram(mapping = aes(y = ..density..))
g <- g + stat_function(fun = pearson.p, colour = "red", args = list(n = nrow(m)))
g

Quan trọng là pearson.pchức năng và bổ sung ggplot2 cuối cùng.

Đây là kết quả; phù hợp hoàn hảo, như người ta mong đợi:

nhập mô tả hình ảnh ở đây


Ngoài ra, như mọi khi, nếu ai đó có thể tặng thẻ "qmethod", điều đó thật tuyệt vời.
tối đa

3
Một sự chuyển đổi nhất định của mối tương quan theo kinh nghiệm có sự phân phối , chứ không phải sự tương quan. Câu trả lời dưới đây bởi amip móng tay nó. t
StasK

Câu trả lời:


11

Như một nhận xét chung, các câu hỏi của bạn thường rất rõ ràng và được minh họa rõ ràng, nhưng thường có xu hướng đi sâu vào việc giải thích vấn đề của bạn ("phương pháp Q" hoặc bất cứ điều gì), có khả năng mất một số độc giả trên đường đi.

Trong trường hợp này, bạn có vẻ đang hỏi:

Phân phối xác suất của mẫu ( ) Hệ số tương quan của Pearson giữa hai biến Gauss không tương quan là gì?n=36

Câu trả lời rất dễ tìm, ví dụ như trong bài viết của Wikipedia về hệ số tương quan của Pearson . Phân phối chính xác có thể được viết cho bất kỳ và bất kỳ giá trị nào của tương quan dân số theo hàm siêu bội. Công thức này thật đáng sợ và tôi không muốn sao chép nó ở đây. Trong trường hợp của bạn là nó đơn giản hóa rất nhiều như sau (xem cùng một bài viết Wiki):nρρ=0

p(r)=(1r2)(n4)/2Beta(1/2,(n2)/2).

Trong trường hợp của bạn có ma trận ngẫu nhiên , . Chúng ta có thể kiểm tra công thức:36×1000n=36

Phân phối các hệ số tương quan

Ở đây đường màu xanh hiển thị biểu đồ của các phần tử nằm ngoài đường chéo của ma trận tương quan được tạo ngẫu nhiên và đường màu đỏ hiển thị phân phối ở trên. Sự phù hợp là hoàn hảo.

Lưu ý rằng phân phối có thể xuất hiện Gaussian, nhưng nó không thể chính xác là Gaussian vì nó chỉ được xác định trên trong khi phân phối bình thường có hỗ trợ vô hạn. Tôi vẽ sơ đồ phân phối bình thường với cùng phương sai với đường đứt nét màu đen; bạn có thể thấy rằng nó khá giống với đường màu đỏ, nhưng cao hơn một chút ở đỉnh.[1,1]


Mã Matlab

n = 36;
p = 1000;

X = randn(n,p);
C = corr(X);
offDiagElements = C(logical(triu(C,1)));

figure
step = 0.01;
x = -1:step:1;
h = histc(offDiagElements, x);
stairs(x,h/sum(h)/step)
hold on

r = -1:0.01:1;
plot(r, 1/beta(1/2,(n-2)/2)*(1-r.^2).^((n-4)/2), 'r')

sigma2 = var(offDiagElements);
plot(r, 1/sqrt(sigma2*2*pi)*exp(-r.^2/(2*sigma2)), 'k--')

Hệ số tương quan của Spearman

Tôi không biết kết quả lý thuyết về việc phân phối các mối tương quan mẫu của Spearman. Nhưng trong phần mô phỏng ở trên, rất dễ thay thế các mối tương quan của Pearson bằng các tương quan của Spearman:

C = corr(X, 'type', 'Spearman');

và điều này dường như không thay đổi sự phân phối nào cả.

Cập nhật: @Glen_b đã chỉ ra trong trò chuyện rằng "phân phối không thể giống nhau vì phân phối cho Spearman rời rạc trong khi đó đối với Pearson là liên tục". Điều này là đúng và có thể thấy rõ với mã của tôi cho các giá trị nhỏ hơn . Thật kỳ lạ, nếu người ta sử dụng thùng biểu đồ đủ lớn để sự rời rạc biến mất, biểu đồ bắt đầu chồng chéo hoàn hảo với thùng của Pearson. Tôi không chắc làm thế nào để hình thành mối quan hệ này một cách chính xác về mặt toán học.n


thật tuyệt vời, cảm ơn vì sự bổ sung của Spearman. Sẽ cẩn thận hơn với phương pháp Q trong tương lai; vẫn đang cố gắng tìm ra khi nào Q-move của PCA đảo ngược có principal(t(data.matrix)vấn đề, và khi nào thì không. Áp dụng giải pháp R trong câu hỏi trên; cho tôi biết nếu bạn muốn có câu trả lời của bạn.
tối đa

3
Nói rõ hơn: Tôi không có gì chống lại phương pháp Q hoặc các câu hỏi liên quan đến nó (Tôi cũng không có gì có lợi cho nó, tôi cũng không đủ quen thuộc). Nhưng câu hỏi này có thể đã được đặt ra dưới dạng hai lớp; rất có thể là nếu bạn đã đăng nó như vậy, nó sẽ được nâng cấp mạnh mẽ hơn và trả lời nhanh hơn. Người ta không bao giờ có thể dự đoán đầy đủ những câu hỏi xảy ra (hoặc không) để thu hút sự chú ý, nhưng có một công thức phức tạp dài chủ yếu là bất lợi.
amip

@amoeba có thể chuyển đổi sang / từ mối tương quan của hệ số hồi quy trong mô hình tuyến tính đơn giản trong đó phương sai của cả X và Y đã biết?
sammosummo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.