Một biến phân loại thực sự chỉ là một tập hợp các biến chỉ báo. Một ý tưởng cơ bản của lý thuyết đo lường là một biến như vậy là bất biến đối với các loại, vì vậy sẽ không có ý nghĩa khi sử dụng nhãn số của các loại trong bất kỳ thước đo nào về mối quan hệ giữa một biến khác (ví dụ: 'tương quan') . Vì lý do này, và đo lường mối quan hệ giữa một biến liên tục và biến phân loại nên hoàn toàn dựa trên các biến chỉ báo xuất phát từ biến sau.
Cho rằng bạn muốn đo lường "tương quan" giữa hai biến, nên xem xét mối tương quan giữa biến ngẫu nhiên liên tục và biến ngẫu nhiên chỉ báo tôi xuất phát từ biến phân loại. Cho φ ≡ P ( I = 1 ) ta có:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
cung cấp cho:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
Vì vậy, mối tương quan giữa một biến ngẫu nhiên liên tục và một chỉ số biến ngẫu nhiên tôi là một chức năng khá đơn giản của chỉ số khả φ và đạt được tiêu chuẩn hóa trong giá trị kỳ vọng của X từ điều trên tôi = 1 . Lưu ý rằng mối tương quan này không yêu cầu bất kỳ sự rời rạc của biến ngẫu nhiên liên tục.XIϕXI=1
Đối với một biến phân loại chung có phạm vi 1 , . . . , M bạn sẽ sau đó chỉ cần mở rộng ý tưởng này để có một vector của các giá trị tương quan cho từng kết quả của biến phân loại. Đối với bất kỳ kết quả C = k chúng ta có thể xác định tương ứng với chỉ số tôi k ≡ I ( C = k ) và chúng ta có:C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
Sau đó chúng tôi có thể xác định là vectơ các giá trị tương quan đối với từng loại của biến ngẫu nhiên phân loại. Đây thực sự là ý nghĩa duy nhất trong đó có ý nghĩa khi nói về 'tương quan' cho một biến ngẫu nhiên phân loại.Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X))
( Lưu ý: Thật đơn giản khi chỉ ra rằng và do đó vectơ tương quan cho một biến ngẫu nhiên phân loại phải tuân theo ràng buộc này. biến ngẫu nhiên và độ lệch chuẩn của X , bạn có thể rút ra vectơ từ bất kỳ m - 1 trong các phần tử của nó.)∑kCov(Ik,X)=0Xm−1
Giải trình trên là dành cho các giá trị tương quan thực sự, nhưng rõ ràng chúng phải được ước tính trong một phân tích nhất định. Ước tính tương quan chỉ báo từ dữ liệu mẫu là đơn giản và có thể được thực hiện bằng cách thay thế các ước tính phù hợp cho từng bộ phận. (Bạn có thể sử dụng các phương pháp ước tính fancier nếu bạn thích.) Cho dữ liệu mẫu chúng ta có thể ước tính các phần của phương trình tương quan là:(x1,c1),...,(xn,cn)
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.