Mối quan hệ giữa trực giao, tương quan và độc lập là gì?


25

Tôi đã đọc một bài báo nói rằng khi sử dụng độ tương phản theo kế hoạch để tìm các phương tiện khác nhau theo một cách ANOVA, các cấu trúc nên trực giao để chúng không bị lỗi và tránh lỗi loại I bị thổi phồng.

Tôi không hiểu tại sao trực giao có nghĩa là không tương quan trong mọi trường hợp. Tôi không thể tìm thấy một lời giải thích trực quan / trực quan về điều đó, vì vậy tôi đã cố gắng hiểu những bài viết / câu trả lời này

https://www.psych.umn.edu/facemony/waller/groupes/FA2010/Readings/rodgers.pdf

Không trực giao có nghĩa là gì trong bối cảnh thống kê?

nhưng với tôi, họ mâu thuẫn với nhau. Đầu tiên nói rằng nếu hai biến không tương quan và / hoặc trực giao thì chúng độc lập tuyến tính, nhưng thực tế là chúng độc lập tuyến tính không có nghĩa là chúng không tương quan và / hoặc trực giao.

Bây giờ trên liên kết thứ hai có câu trả lời cho biết những điều như "trực giao có nghĩa là không tương quan" và "Nếu X và Y độc lập thì chúng là Trực giao. Nhưng điều ngược lại là không đúng".

Một nhận xét thú vị khác trong trạng thái liên kết thứ hai rằng hệ số tương quan giữa hai biến bằng cosin của góc giữa hai vectơ tương ứng với các biến này, ngụ ý rằng hai vectơ trực giao hoàn toàn không tương quan (không phải là bài viết đầu tiên yêu cầu bồi thường).

Vậy mối quan hệ thực sự giữa độc lập, trực giao và tương quan là gì? Có lẽ tôi đã bỏ lỡ một cái gì đó nhưng tôi không thể tìm ra nó là gì.


1
Không có câu trả lời nào cho các câu hỏi hiển thị là "Liên kết" và "Liên quan" ở bên phải câu hỏi này có làm bạn hài lòng không?
Dilip Sarwate

2
Hai liên kết tôi cung cấp dường như cung cấp câu trả lời chắc chắn nhưng nêu ra những điều khác nhau và khi tôi nhìn vào các câu hỏi liên quan, tôi có thể thấy rằng mọi người đưa ra câu trả lời không đồng ý với nhau
Carl Levasseur

2
Sự nhầm lẫn / mâu thuẫn nhận thức có thể hoàn toàn do sự khác biệt giữa độc lập tuyến tính và độc lập thống kê.
jona

1
Tôi nghĩ rằng (ANOVA) nên được trực giao là một khía cạnh quan trọng của câu hỏi này: đây không chỉ là về các biến ngẫu nhiên. Ngoài ra còn có một sự nhấn mạnh thêm về "tính độc lập" so với câu hỏi liên quan chặt chẽ mà Xian đề xuất là một bản sao có thể có (trong câu hỏi đó OP đã nói rằng họ hiểu "tính độc lập" nên phần lớn được đưa ra trong các câu trả lời). Vì vậy, tôi đề nghị nó không phải là một bản sao và thứ hai @jona rằng sự nhầm lẫn có thể được gói gọn trong nhiều ý nghĩa của "sự độc lập".
Cá bạc

1
Tôi cũng tin rằng đây không phải là một bản sao. Câu hỏi đó không đề cập đến mối tương quan, và câu trả lời không nêu chi tiết về sự khác biệt có thể có giữa tính trực giao và không tương quan. Hơn nữa, như người đăng đã chỉ ra, có những câu trả lời trái ngược nhau được đưa ra cho các câu hỏi liên quan khác nhau.
A. Donda

Câu trả lời:


39

Độc lập là một khái niệm thống kê. Hai biến ngẫu nhiên và độc lập thống kê nếu phân phối chung của chúng là sản phẩm của phân phối biên, tức là nếu mỗi biến có mật độ hoặc nói chung là trong đó biểu thị hàm phân phối tích lũy của từng biến ngẫu nhiên.Y f ( x , y ) = f ( x ) f ( y ) f F ( x , y ) = F ( x ) F ( y ) FXY

f(x,y)=f(x)f(y)
f
F(x,y)=F(x)F(y)
F

Tương quan là một khái niệm thống kê yếu hơn nhưng có liên quan. Tương quan (Pearson) của hai biến ngẫu nhiên là kỳ vọng của sản phẩm của các biến được tiêu chuẩn hóa, tức là Các biến không tương quan nếu . Có thể chỉ ra rằng hai biến ngẫu nhiên độc lập nhất thiết không được tương quan, nhưng không phải ngược lại.

ρ=E[XE[X]E[(XE[X])2]YE[Y]E[(YE[Y])2]].
ρ=0

Tính trực giao là một khái niệm bắt nguồn từ hình học, và được khái quát trong đại số tuyến tính và các lĩnh vực liên quan của toán học. Trong đại số tuyến tính, tính trực giao của hai vectơ và được xác định trong các không gian sản phẩm bên trong , tức là không gian vectơ với một sản phẩm bên trong , với điều kiện Sản phẩm bên trong có thể được định nghĩa theo những cách khác nhau (dẫn đến không gian sản phẩm bên trong khác nhau). Nếu các vectơ được đưa ra dưới dạng các chuỗi số, , thì một lựa chọn điển hình là sản phẩm chấm ,uvu,v

u,v=0.
u=(u1,u2,un)u,v=i=1nuivi .

Do đó, tính trực giao không phải là một khái niệm thống kê và sự nhầm lẫn mà bạn quan sát có thể là do các bản dịch khác nhau của khái niệm đại số tuyến tính để thống kê:

a) Chính thức, một không gian của các biến ngẫu nhiên có thể được coi là một không gian vectơ. Sau đó có thể định nghĩa một sản phẩm bên trong trong không gian đó, theo những cách khác nhau. Một lựa chọn phổ biến là định nghĩa nó là hiệp phương sai: Vì tương quan của hai biến ngẫu nhiên là 0 chính xác nếu hiệp phương sai bằng 0, theo định nghĩa này không tương quan giống như tính trực giao. (Một khả năng khác là xác định sản phẩm bên trong của các biến ngẫu nhiên đơn giản là kỳ vọng của sản phẩm .)

X,Y=cov(X,Y)=E[(XE[X])(YE[Y])].

b) Không phải tất cả các biến chúng tôi xem xét trong thống kê là các biến ngẫu nhiên. Đặc biệt trong hồi quy tuyến tính, chúng ta có các biến độc lập không được coi là ngẫu nhiên nhưng được xác định trước. Các biến độc lập thường được đưa ra dưới dạng các chuỗi số, trong đó tính trực giao được xác định tự nhiên bởi sản phẩm chấm (xem ở trên). Sau đó chúng ta có thể điều tra các hậu quả thống kê của các mô hình hồi quy trong đó các biến độc lập là hoặc không trực giao. Trong bối cảnh này, tính trực giao không có một định nghĩa thống kê cụ thể và thậm chí nhiều hơn: nó không áp dụng cho các biến ngẫu nhiên.

Bổ sung đáp ứng với nhận xét của Silverfish: Tính trực giao không chỉ liên quan đến các biến hồi quy ban đầu mà còn liên quan đến độ tương phản, bởi vì (các bộ) tương phản đơn giản (được chỉ định bởi các vectơ tương phản) có thể được xem là biến đổi của ma trận thiết kế, tức là tập hợp của các biến độc lập, thành một tập hợp các biến độc lập mới. Tính trực giao cho độ tương phản được xác định thông qua sản phẩm chấm. Nếu các biến hồi quy ban đầu là trực giao lẫn nhau và một áp dụng tương phản trực giao, thì các biến hồi quy mới cũng trực giao lẫn nhau. Điều này đảm bảo rằng tập hợp các độ tương phản có thể được xem như mô tả sự phân rã của phương sai, ví dụ như thành các hiệu ứng và tương tác chính, ý tưởng nằm dưới ANOVA .

Vì theo biến thể a), tính không tương quan và tính trực giao chỉ là các tên khác nhau cho cùng một thứ, theo tôi, tốt nhất là tránh sử dụng thuật ngữ này theo nghĩa đó. Nếu chúng ta muốn nói về sự không tương quan của các biến ngẫu nhiên, chúng ta hãy nói như vậy và không làm phức tạp vấn đề bằng cách sử dụng một từ khác có nền tảng khác và các hàm ý khác nhau. Điều này cũng giải phóng thuật ngữ trực giao được sử dụng theo biến thể b), rất hữu ích đặc biệt là trong việc thảo luận về hồi quy bội. Và theo cách khác, chúng ta nên tránh áp dụng thuật ngữ tương quan cho các biến độc lập, vì chúng không phải là biến ngẫu nhiên.


Bài thuyết trình của Rodgers và cộng sự phần lớn phù hợp với quan điểm này, đặc biệt là khi họ hiểu tính trực giao là khác biệt với sự không tương quan. Tuy nhiên, họ áp dụng thuật ngữ tương quan cho các biến không ngẫu nhiên (chuỗi số). Điều này chỉ có ý nghĩa thống kê đối với hệ số tương quan mẫu . Tôi vẫn khuyên bạn nên tránh sử dụng thuật ngữ này, trừ khi chuỗi số được coi là một chuỗi thực hiện một biến ngẫu nhiên.r

Tôi đã phân tán các liên kết đến câu trả lời cho hai câu hỏi liên quan trong suốt văn bản trên, điều này sẽ giúp bạn đặt chúng vào ngữ cảnh của câu trả lời này.


1
+1 Sự khác biệt bạn thực hiện ở đây rất rõ ràng và hữu ích - Tôi rất thích đọc toàn bộ bài viết.
whuber

+1 Tôi thích cách bạn kết hợp các câu trả lời khác có thể trái ngược nhau. Có lẽ trong phần (b) sẽ rất hay khi đề cập một cái gì đó cụ thể về thiết kế thử nghiệm hoặc ANOVA (vì điều đó đã được đề cập trong câu hỏi của OP) - không rõ ràng ngay lập tức, trong bối cảnh câu trả lời của bạn, tại sao "tính trực giao" có thể là một điều thú vị hoặc thực sự mong muốn tài sản của một biến độc lập.
Cá bạc

@Silverfish, bạn nói đúng, tôi sẽ cố gắng thêm nó.
A. Donda

2
Tôi cầu xin khác với ý kiến ​​khen ngợi của whuber. Định nghĩa về tính độc lập là khủng khiếp: dường như ngụ ý rằng các biến ngẫu nhiên và có cùng hàm phân phối xác suất tích lũy (CDF hoặc cdf) được ký hiệu ở đây là . Và không, và không biểu thị khác nhau CDF của và . là hàm có giá trị thực của biến thực và và biểu thị các giá trị của hàm này tại các số vàY F ( ) F ( x ) F ( y ) X Y F ( ) F ( x ) F ( y ) x y F X , Y ( x , y ) = F X ( x ) F Y ( y ) cho tất cả x y , - < x ,XYF()F(x)F(y)XYF()F(x)F(y)xy. đúng sẽ là
FX,Y(x,y)= =FX(x)FY(y) cho tất cả x  y,-<x,y<.
Dilip Sarwate

2
@DilipSarwate, puh-cho thuê ...
A. Donda

0

Đây là quan điểm trực quan của tôi: Nói rằng x và y không tương quan / trực giao là cả hai cách nói rằng kiến ​​thức về giá trị của x hoặc y không cho phép dự đoán về cái khác - x và y độc lập với nhau - giả sử rằng bất kỳ mối quan hệ là tuyến tính.

Hệ số tương quan cung cấp một dấu hiệu cho thấy kiến ​​thức về x (hoặc y) cho phép chúng ta dự đoán y (hoặc x) tốt như thế nào. Giả sử mối quan hệ tuyến tính.

Trong một mặt phẳng, một vectơ dọc theo trục X có thể thay đổi về độ lớn mà không thay đổi thành phần của nó dọc theo trục Y - trục X và Y là trực giao và vectơ dọc X là trực giao với bất kỳ dọc theo Y. Thay đổi độ lớn của vectơ không dọc theo X, sẽ làm cho cả hai thành phần X và Y thay đổi. Vectơ không còn trực giao với Y.

Nếu hai biến không tương quan thì chúng là trực giao và nếu hai biến là trực giao thì chúng không tương quan. Tương quan và trực giao chỉ đơn giản là khác nhau, mặc dù tương đương - đại số và hình học - cách thể hiện khái niệm độc lập tuyến tính. Như một sự tương tự, hãy xem xét giải pháp của một cặp phương trình tuyến tính theo hai biến bằng cách vẽ đồ thị (hình học) và bằng các định thức (đại số).

Đối với giả định tuyến tính - hãy x là thời gian, hãy để y là hàm sin. Trong một khoảng thời gian, x và y đều trực giao và không tương quan bằng cách sử dụng các phương tiện thông thường để tính toán cả hai. Tuy nhiên kiến ​​thức về x cho phép chúng ta dự đoán y chính xác. Tuyến tính là một khía cạnh quan trọng của mối tương quan và tính trực giao.

Mặc dù không phải là một phần của câu hỏi, tôi lưu ý rằng mối tương quan và tính không trực giao không tương đương với quan hệ nhân quả. x và y có thể tương quan bởi vì cả hai đều có một số, có thể ẩn, phụ thuộc vào một biến thứ ba. Tiêu thụ kem tăng vào mùa hè, mọi người đi biển thường xuyên hơn vào mùa hè. Hai cái này tương quan với nhau, nhưng không "gây ra" cái kia. Xem https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation để biết thêm về điểm này.


Uncorrelation và orthogonality là những thứ khác nhau. Bạn có thể kiểm tra xem tại đây - terpconnect.umd.edu/~bmomen/BIOM621/LineardepCorrOrthogonal.pdf
Yurii

0

Đây là mối quan hệ: Nếu X và Y không tương quan, thì XE [X] trực giao với YE [Y].

Không giống như độc lập đó là một khái niệm mạnh mẽ hơn về không tương quan, nghĩa là độc lập sẽ dẫn đến không tương quan, (không) trực giao và (không) tương quan có thể xảy ra cùng một lúc. Thí dụ

Tôi đang là TA của xác suất trong học kỳ này, vì vậy tôi làm một đoạn video ngắn về Độc lập, Tương quan, Tính trực giao.

https://youtu.be/s5lCl3aQ_A4

Hy vọng nó giúp.


Điều này không trả lời câu hỏi.
Michael R. Chernick

Tôi sửa lại câu trả lời, hy vọng điều này sẽ có ích ~ @ Michael Chernick
linan huang

@linanhuang Người từ Larx?
Đức Giê
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.