Độc lập tuyến tính so với độc lập thống kê (PCA và ICA)


8

Tôi đang đọc bài báo thú vị này về việc áp dụng ICA vào dữ liệu biểu hiện gen.

Các tác giả viết:

[T] ở đây không yêu cầu các thành phần PCA phải độc lập thống kê.

Đó là sự thật, nhưng PC là trực giao, phải không?

Tôi hơi mơ hồ về mối quan hệ giữa sự phụ thuộc thống kê và tính trực giao hoặc tính độc lập tuyến tính.

Điều đáng chú ý là mặc dù ICA cũng cung cấp phân rã tuyến tính của ma trận dữ liệu, nhưng yêu cầu về tính độc lập thống kê ngụ ý rằng ma trận hiệp phương sai dữ liệu được giải mã theo kiểu phi tuyến tính, trái ngược với PCA nơi việc giải mã được thực hiện tuyến tính.

Tôi không hiểu điều đó. Làm thế nào để thiếu tuyến tính theo độc lập thống kê?

Câu hỏi: sự độc lập thống kê của các thành phần trong ICA liên quan đến sự độc lập tuyến tính của các thành phần trong PCA như thế nào?

Câu trả lời:


10

Đây có thể là một bản sao của một số câu hỏi cũ hơn, nhưng tôi sẽ trả lời ngắn gọn là tuy nhiên.

Đối với một lời giải thích phi kỹ thuật, tôi thấy khá hữu ích con số này từ bài viết trên Wikipedia về Tương quan và sự phụ thuộc :

nhập mô tả hình ảnh ở đây

Các con số trên mỗi biểu đồ phân tán cho thấy các hệ số tương quan giữa X và Y. Nhìn vào hàng cuối cùng: trên mỗi biểu đồ phân tán, mối tương quan là 0, tức là X và Y là "độc lập tuyến tính". Tuy nhiên, chúng rõ ràng không độc lập về mặt thống kê: nếu bạn biết giá trị của X, bạn có thể thu hẹp các giá trị có thể có của Y. Nếu X và Y độc lập, điều đó có nghĩa là biết X không cho bạn biết về Y.

Mục đích của ICA là cố gắng tìm các thành phần độc lập. Trong PCA, bạn chỉ nhận được các thành phần không tương quan ("trực giao"); tương quan giữa chúng bằng không nhưng chúng rất có thể phụ thuộc vào thống kê.


2
Ah! (palmface) OK, bằng cách nào đó tôi bắt đầu mổ xẻ ICA và cuối cùng không thấy rõ ràng. Cảm ơn! Tôi sử dụng ví dụ tương tự khi giải thích vấn đề tương tự cho người khác ...
tháng

1
Chúng ta có xu hướng "đánh đồng" "tính trực giao" với "tương quan bằng không", nhưng điều này chỉ đúng khi một trong các biến liên quan có ý nghĩa bằng không.
Alecos Papadopoulos

2
@Alecos, điều đó đúng (+1), nhưng các phân tích như PCA hoặc ICA hầu như luôn được thực hiện trên các biến trung tâm, vì vậy sự khác biệt này không liên quan.
amip

1
Thật vậy, đó là vấn đề nói chung. Trong kinh tế lượng, tính trực giao được thảo luận chủ yếu liên quan đến "thuật ngữ lỗi" của hồi quy có giá trị trung bình bằng không, và ở đây cũng vậy, nó có xu hướng được đánh đồng là "hiệp phương sai". Vì vậy, mọi người gặp nguy hiểm để quên rằng nói chung họ không bằng nhau, và do đó họ có thể kết thúc sai lầm trong tình huống mà các biến không tập trung vào ý nghĩa của chúng.
Alecos Papadopoulos

Tôi đã gặp một câu: "Mặc dù không tương quan, các thành phần chính có thể phụ thuộc rất nhiều vào thống kê". Theo câu trả lời của bạn, có hợp lý để hiểu nó theo cách sau: biết một PC là gì, chúng ta có thể nói điều gì đó về một PC khác không?
camillejr
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.