Tương quan giữa dữ liệu liên tục và dữ liệu đếm

Giả sử chúng ta đang xử lý tập dữ liệu này trong đó là biến liên tục (ví dụ Exponential) và là phân phối rời rạc (ví dụ Poisson) cho . Hãy nói rằng là mối tương quan giữa và . Làm thế nào ai đó có thể định nghĩa ? $(X_i, N_i)$ $X_i$ $N_i$ $i=1,...,n$ $\rho$ $X$ $N$ $\rho$

correlation count-data

— người dùng9292
nguồn

Việc lựa chọn biến để lập mô hình là điều phổ biến khi một số biến dự đoán là dữ liệu đếm và dữ liệu phản hồi liên tục. Không có sự cấm đoán so sánh giữa số thực và toàn bộ. Hình dạng của các bản phân phối sẽ là một vấn đề lớn hơn. Bạn sẽ muốn thử một loạt các chức năng bậc thang của Tukey (hay còn gọi là chuỗi sức mạnh).

— Chris

@Chris Cảm ơn bạn đã bình luận. Tôi không xử lý hồi quy ở đây (mặc dù ai đó có thể lập luận rằng việc xây dựng GLM sẽ nắm bắt được mối tương quan). Tôi quan tâm liệu có thước đo tương quan hay không (ví dụ, Pearson dành cho dữ liệu liên tục).

g (Y) = β N

$g(Y) = \beta N$

— user9292

Tại sao mối tương quan Pearson thông thường sẽ không phải là thước đo tương quan cho vấn đề này?

— Glen_b -Reinstate Monica

Tôi muốn nói có ít nhất 3 lựa chọn hợp lý sẽ có ý nghĩa với bạn:

Polyserial Correlation - Đây sẽ là kỳ lạ nhất trong 3 tùy chọn và liên quan đến xấp xỉ một biến liên tục, tiềm ẩn được sử dụng để xây dựng biến rời rạc ( trong trường hợp của bạn) cũng như thủ tục ước tính khả năng tối đa cho khả năng tối đa đó có thể dẫn đến giữa biến liên tục tiềm ẩn đó và biến thực, , khi được coi là mẫu bình thường bivariate (ví dụ triển khai trong R: polycor ). Có một số tài liệu tham khảo cho ý tưởng này ngoài kia, nhưng đây là ấn phẩm gốc về chủ đề từ năm 1974: Ước tính mối tương quan giữa một biến liên tục và biến rời rạc . $N_i$ $\rho$ $X_i$
Tương quan không đối xứng - Hệ số tương quan xếp hạng của Spearman có thể là một lựa chọn tốt trong trường hợp này. Tính toán cho Spearman's Rho hoạt động dựa trên các cấp bậc của các giá trị của từng biến thay vì chính các giá trị làm cho nó được áp dụng rộng rãi hơn khi có mối quan hệ phi tuyến tính hoặc kiểu dữ liệu hỗn hợp.
Mô hình hóa - Tôi biết bạn đã đề cập trong các nhận xét rằng bạn không cố gắng thực hiện bất kỳ loại mô hình nào, nhưng tôi vẫn nghĩ rằng một ước tính tham số hoặc hai từ mối quan hệ chức năng, phù hợp giữa hai biến là nhiều thông tin hơn bất kỳ hệ số tương quan nào bạn sẽ tìm thấy (trừ khi biến rời rạc thực sự được tạo ra từ một nửa giá trị phân phối chuẩn bivariate - điều mà tôi nghi ngờ).

Để trả lời câu hỏi của bạn trực tiếp hơn, tính toán như bình thường (giả sử bạn có nghĩa là hệ số tương quan thời điểm sản phẩm theo đó) có thể có các thuộc tính bạn mong đợi, hoặc ít nhất nó sẽ lớn hơn khi sự phụ thuộc tuyến tính giữa các biến tăng lên . Tuy nhiên, một thử nghiệm thống kê về tầm quan trọng của mối tương quan sẽ không có giá trị vì một trong những giả định cần thiết cho thử nghiệm như vậy là tính quy tắc hai biến và điều đó rõ ràng là không đúng nếu một trong các biến là rời rạc. $\rho$

Mặc dù vậy, việc kiểm tra tầm quan trọng với hệ số tương quan không tham số (ví dụ Spearman) sẽ có thể thực hiện được và có thể dễ dàng tìm thấy các triển khai được ghi chép rõ ràng bằng ngôn ngữ đó.

— Eric Séc
nguồn