Độc lập là một khái niệm thống kê. Hai biến ngẫu nhiên và độc lập thống kê nếu phân phối chung của chúng là sản phẩm của phân phối biên, tức là
nếu mỗi biến có mật độ hoặc nói chung là
trong đó biểu thị hàm phân phối tích lũy của từng biến ngẫu nhiên.Y f ( x , y ) = f ( x ) f ( y ) f F ( x , y ) = F ( x ) F ( y ) FXY
f( x , y) = f( x ) f( y)
fF( x , y) = F( x ) F( y)
F
Tương quan là một khái niệm thống kê yếu hơn nhưng có liên quan. Tương quan (Pearson) của hai biến ngẫu nhiên là kỳ vọng của sản phẩm của các biến được tiêu chuẩn hóa, tức là
Các biến không tương quan nếu . Có thể chỉ ra rằng hai biến ngẫu nhiên độc lập nhất thiết không được tương quan, nhưng không phải ngược lại.
ρ = E [ X- E [ X]E [(X- E [ X] )2]------------√Y- E [ Y]E [(Y- E [ Y] )2]------------√] .
ρ = 0
Tính trực giao là một khái niệm bắt nguồn từ hình học, và được khái quát trong đại số tuyến tính và các lĩnh vực liên quan của toán học. Trong đại số tuyến tính, tính trực giao của hai vectơ và được xác định trong các không gian sản phẩm bên trong , tức là không gian vectơ với một sản phẩm bên trong , với điều kiện
Sản phẩm bên trong có thể được định nghĩa theo những cách khác nhau (dẫn đến không gian sản phẩm bên trong khác nhau). Nếu các vectơ được đưa ra dưới dạng các chuỗi số, , thì một lựa chọn điển hình là sản phẩm chấm ,bạnv⟨ U , v ⟩
⟨ U , v ⟩ = 0.
u = ( bạn1, bạn2, ... un)⟨ U , v ⟩ = Σni = 1bạntôivtôi .
Do đó, tính trực giao không phải là một khái niệm thống kê và sự nhầm lẫn mà bạn quan sát có thể là do các bản dịch khác nhau của khái niệm đại số tuyến tính để thống kê:
a) Chính thức, một không gian của các biến ngẫu nhiên có thể được coi là một không gian vectơ. Sau đó có thể định nghĩa một sản phẩm bên trong trong không gian đó, theo những cách khác nhau. Một lựa chọn phổ biến là định nghĩa nó là hiệp phương sai:
Vì tương quan của hai biến ngẫu nhiên là 0 chính xác nếu hiệp phương sai bằng 0, theo định nghĩa này không tương quan giống như tính trực giao. (Một khả năng khác là xác định sản phẩm bên trong của các biến ngẫu nhiên đơn giản là kỳ vọng của sản phẩm .)
⟨ X, Y⟩ = C o v ( X, Y) = E [ ( X- E [ X] ) ( Y- E [ Y] ) ] .
b) Không phải tất cả các biến chúng tôi xem xét trong thống kê là các biến ngẫu nhiên. Đặc biệt trong hồi quy tuyến tính, chúng ta có các biến độc lập không được coi là ngẫu nhiên nhưng được xác định trước. Các biến độc lập thường được đưa ra dưới dạng các chuỗi số, trong đó tính trực giao được xác định tự nhiên bởi sản phẩm chấm (xem ở trên). Sau đó chúng ta có thể điều tra các hậu quả thống kê của các mô hình hồi quy trong đó các biến độc lập là hoặc không trực giao. Trong bối cảnh này, tính trực giao không có một định nghĩa thống kê cụ thể và thậm chí nhiều hơn: nó không áp dụng cho các biến ngẫu nhiên.
Bổ sung đáp ứng với nhận xét của Silverfish: Tính trực giao không chỉ liên quan đến các biến hồi quy ban đầu mà còn liên quan đến độ tương phản, bởi vì (các bộ) tương phản đơn giản (được chỉ định bởi các vectơ tương phản) có thể được xem là biến đổi của ma trận thiết kế, tức là tập hợp của các biến độc lập, thành một tập hợp các biến độc lập mới. Tính trực giao cho độ tương phản được xác định thông qua sản phẩm chấm. Nếu các biến hồi quy ban đầu là trực giao lẫn nhau và một áp dụng tương phản trực giao, thì các biến hồi quy mới cũng trực giao lẫn nhau. Điều này đảm bảo rằng tập hợp các độ tương phản có thể được xem như mô tả sự phân rã của phương sai, ví dụ như thành các hiệu ứng và tương tác chính, ý tưởng nằm dưới ANOVA .
Vì theo biến thể a), tính không tương quan và tính trực giao chỉ là các tên khác nhau cho cùng một thứ, theo tôi, tốt nhất là tránh sử dụng thuật ngữ này theo nghĩa đó. Nếu chúng ta muốn nói về sự không tương quan của các biến ngẫu nhiên, chúng ta hãy nói như vậy và không làm phức tạp vấn đề bằng cách sử dụng một từ khác có nền tảng khác và các hàm ý khác nhau. Điều này cũng giải phóng thuật ngữ trực giao được sử dụng theo biến thể b), rất hữu ích đặc biệt là trong việc thảo luận về hồi quy bội. Và theo cách khác, chúng ta nên tránh áp dụng thuật ngữ tương quan cho các biến độc lập, vì chúng không phải là biến ngẫu nhiên.
Bài thuyết trình của Rodgers và cộng sự phần lớn phù hợp với quan điểm này, đặc biệt là khi họ hiểu tính trực giao là khác biệt với sự không tương quan. Tuy nhiên, họ áp dụng thuật ngữ tương quan cho các biến không ngẫu nhiên (chuỗi số). Điều này chỉ có ý nghĩa thống kê đối với hệ số tương quan mẫu . Tôi vẫn khuyên bạn nên tránh sử dụng thuật ngữ này, trừ khi chuỗi số được coi là một chuỗi thực hiện một biến ngẫu nhiên.r
Tôi đã phân tán các liên kết đến câu trả lời cho hai câu hỏi liên quan trong suốt văn bản trên, điều này sẽ giúp bạn đặt chúng vào ngữ cảnh của câu trả lời này.