Ví dụ về dữ liệu độc lập và không tương quan trong cuộc sống thực và các cách để đo / phát hiện chúng


20

Chúng ta luôn nghe về vectơ dữ liệu này, vectơ dữ liệu khác này độc lập với nhau hoặc không tương quan, v.v., và mặc dù rất dễ gặp phải toán học về hai khái niệm đó, tôi muốn gắn chúng vào các ví dụ từ thực tế- cuộc sống, và cũng tìm cách để đo lường mối quan hệ này.

Từ quan điểm này, tôi đang tìm kiếm ví dụ về hai tín hiệu của các kết hợp sau: (Tôi sẽ bắt đầu với một số):

  • Hai tín hiệu độc lập VÀ (nhất thiết) không tương quan:

    • Tiếng ồn từ động cơ xe hơi (gọi nó là ) và giọng nói của bạn ( v 2 [ n ] ) khi bạn đang nói chuyện.v1[n]v2[n]
    • Một bản ghi độ ẩm mỗi ngày ( ) và chỉ số dow-jones ( v 2 [ n ] ).v1[n]v2[n]

Câu 1) Làm thế nào bạn đo / chứng minh rằng chúng độc lập với hai vectơ đó trong tay? Chúng ta biết rằng tính độc lập có nghĩa là sản phẩm của pdf bằng với pdf chung của chúng và điều đó thật tuyệt vời, nhưng với hai vectơ đó trong tay, làm thế nào để chứng minh sự độc lập của chúng?

  • Hai tín hiệu KHÔNG độc lập, nhưng vẫn không tương thích:

Câu 2) Tôi không thể nghĩ ra bất kỳ ví dụ nào ở đây ... một số ví dụ sẽ là gì? Tôi biết chúng ta có thể đo lường mối tương quan bằng cách lấy mối tương quan chéo của hai vectơ như vậy, nhưng làm thế nào để chúng tôi chứng minh rằng chúng cũng KHÔNG độc lập?

  • Hai tín hiệu tương quan:
    • Một vectơ đo giọng của một ca sĩ opera trong sảnh chính, , trong khi ai đó ghi lại giọng nói của cô ấy từ đâu đó bên trong tòa nhà, nói trong phòng thử ( v 2 [ n ] ).v1[n]v2[n]
    • Nếu bạn liên tục đo nhịp tim trong xe, ( ), và cũng đo cường độ ánh sáng xanh chiếu vào kính chắn gió phía sau của bạn ( v 2 [ n ] ) ... Tôi đoán rằng những điều đó sẽ rất tương quan ... :-)v1[n]v2[n]

Câu 3) Liên quan đến q2, nhưng trong trường hợp đo tương quan chéo từ quan điểm thực nghiệm này, liệu có đủ để xem sản phẩm chấm của các vectơ đó (vì đó là giá trị ở đỉnh của tương quan chéo của chúng)? Tại sao chúng ta quan tâm đến các giá trị khác trong hàm cross-Corr?

Cảm ơn một lần nữa, càng nhiều ví dụ tốt hơn để xây dựng trực giác!


@DilipSarwate Cảm ơn Dilip, tôi sẽ xem qua. Bây giờ một số ví dụ sẽ là tốt mặc dù.
Spacey

Bạn không thể "chứng minh" rằng họ độc lập theo cùng một cách mà ngay cả một cuộc thăm dò được xây dựng tốt cũng không thể "chứng minh" mọi người sẽ bỏ phiếu như thế nào - và vì những lý do tương tự.
Jim Clay

@JimClay Hãy thoải mái thư giãn tiêu chí 'chứng minh' - điều tôi đang cố gắng đạt được là những cách để đo lường / định lượng sự độc lập. Chúng ta thường nghe về như vậy và vì vậy độc lập, làm thế nào để họ biết điều đó? Băng đo nào đang được sử dụng?
Spacey

tôi muốn biết liệu cros corelation có thể được sử dụng cho hai tín hiệu tương tự một độ phân giải cao và độ phân giải thấp khác cho mục đích phân tích hay không.

Nếu chúng ta có một số biến ngẫu nhiên X và xây dựng 2 tín hiệu a ** = (x) và ** b ** = f 2 (x) với f 1f 2 là trực giao và ** x = a + bf1f2f1f2 . Điều này có nghĩa là các tín hiệu như vậy là độc lập? Điều này đòi hỏi một số điều kiện bổ sung? Khách sạn này sẽ rất thú vị vì nó tránh xây dựng pdf chung của ab .
Mladen

Câu trả lời:


9

Một vài yếu tố ... (Tôi biết rằng điều này không đầy đủ, một câu trả lời đầy đủ hơn có lẽ nên đề cập đến những khoảnh khắc)

Q1

Để kiểm tra xem hai phân phối có độc lập hay không, bạn cần đo mức độ phân phối chung của chúng tương tự như thế nào với sản phẩm phân phối biên p ( x ) × p ( y ) của chúng . Với mục đích này, bạn có thể sử dụng bất kỳ khoảng cách giữa các bản phân phối. Nếu bạn sử dụng phân kỳ Kullback-Leibler để so sánh các phân phối đó, bạn sẽ xem xét số lượng:p(x,y)p(x)×p(y)

xyp(x,y)logp(x,y)p(x)p(y)dxdy

Và bạn sẽ nhận ra ... Thông tin lẫn nhau! Nó càng thấp, các biến càng độc lập.

Thực tế hơn, để tính toán đại lượng này từ các quan sát của bạn, bạn có thể ước tính mật độ , p ( y ) , p ( x , y ) từ dữ liệu của mình bằng công cụ ước tính mật độ hạt nhân và thực hiện tích hợp số trên lưới mịn ; hoặc chỉ định lượng dữ liệu của bạn thành N thùng và sử dụng biểu thức Thông tin lẫn nhau để phân phối riêng biệt.p(x)p(y)p(x,y)N

Quý 2

Từ trang Wikipedia về tính độc lập và tương quan thống kê:

Distribution plots

Ngoại trừ ví dụ cuối cùng, các phân phối 2D này không tương quan (ma trận hiệp phương sai), nhưng không độc lập, phân phối biên p ( x )p ( y ) .p(x,y)p(x)p(y)

Quý 3

Thực sự có những tình huống mà bạn có thể xem xét tất cả các giá trị của các hàm tương quan chéo. Chúng phát sinh, ví dụ, trong xử lý tín hiệu âm thanh. Xem xét hai micrô chụp cùng một nguồn, nhưng cách xa vài mét. Tương quan chéo của hai tín hiệu sẽ có cực đại mạnh ở độ trễ tương ứng với khoảng cách giữa các micrô chia cho tốc độ âm thanh. Nếu bạn chỉ nhìn vào mối tương quan chéo ở độ trễ 0, bạn sẽ không thấy rằng một tín hiệu là phiên bản thay đổi theo thời gian của tín hiệu kia!


Cảm ơn bạn pichenettes: 1) Bạn có thể giải thích rõ hơn về điểm đầu tiên của mình không - Tôi thực sự gặp khó khăn trong việc hiểu làm thế nào, từ hai vectơ dữ liệu, x [n] và y [n], tôi có thể đến với PDF của họ , . Tôi có thể hiểu làm thế nào việc lấy biểu đồ của x [n] sẽ cho tôi pdf của X, ( p (x} ), và tương tự với Y, nhưng làm thế nào một trái đất xuất hiện một khớp có hai vectơ ?? hỏi một cách cụ thể - ánh xạ cụ thể chính xác của PDF từ các mẫu được quan sát. Đây là điều khiến tôi bối rối nhất. (contd)p(x,y)p(x}
Spacey

(contd) 2) Vì vậy, để tóm tắt: Nếu ma trận hiệp phương sai của x và y là đường chéo, thì chúng không tương quan, nhưng KHÔNG nhất thiết phải độc lập đúng? Để kiểm tra tính độc lập là vấn đề với câu hỏi tiếp theo (1). Tuy nhiên, nếu chúng tôi cho thấy họ độc lập, thì tất nhiên ma trận hiệp phương sai của họ đã bị chéo. Tôi đã hiểu đúng chưa? Một ví dụ về 2 tín hiệu vật lý mà tôi có thể đo được trong cuộc sống thực sẽ phụ thuộc, nhưng không tương quan là gì? Cảm ơn một lần nữa.
Spacey

1
Giả sử bạn có hai tín hiệu y n được biểu diễn dưới dạng vectơ của các phần tử N. Bạn có thể lấy ước tính của p ( x , yxnynN bằng cách sử dụng công cụ ước tính mật độ hạt nhân: p ( x , y ) = i 1p(x,y)trong đóKlà hàm Kernel. Hoặc bạn có thể sử dụng kỹ thuật tương tự như để xây dựng biểu đồ, nhưng ở dạng 2D. Xây dựng lưới hình chữ nhật, đếm xem có bao nhiêu cặp(xn,yn)rơi vào mỗi ô của lưới và sử dụngp(x,y)=Cp(x,y)=i1NK(xxi,yyi)K(xn,yn) trong đó N là kích thước tín hiệu của bạn vàClà số phần tử trong ô được liên kết với điểm(x,y). p(x,y)=CNC(x,y)
pichenettes

1
"2 tín hiệu vật lý sẽ phụ thuộc nhưng không tương quan": Giả sử chúng ta hack GPS của một chiếc taxi NY để ghi lại lịch sử (vĩ độ, kinh độ) về vị trí của nó. Có một cơ hội tốt lat., Long. dữ liệu sẽ không được thông báo - không có "định hướng" đặc quyền của đám mây điểm. Nhưng nó sẽ khó có thể độc lập, vì, nếu bạn được yêu cầu đoán vĩ độ của chiếc taxi, bạn sẽ đoán tốt hơn nhiều nếu bạn biết kinh độ (sau đó bạn có thể nhìn vào bản đồ và loại trừ [lat, dài] cặp chiếm bởi các tòa nhà).
pichenettes

Một ví dụ khác: hai sóng hình sin ở bội số nguyên có cùng tần số. Tương quan Null (cơ sở Fourier là trực giao); nhưng nếu bạn biết giá trị của một giá trị thì chỉ có một tập hợp hữu hạn các giá trị mà cái kia có thể lấy (nghĩ về một âm mưu Lissajous).
pichenettes

5

Suy ra liệu hai tín hiệu có độc lập hay không là rất khó thực hiện (đưa ra các quan sát hữu hạn) mà không có bất kỳ kiến ​​thức / giả định nào trước đó.

XYXYYXY

cov(f1(X),f2(Y))=E(f1(X),f2(Y))=0
f1f2XYf1(x)=f2(x)=x, the identity function.

If we assume joint Gaussianity, then all joint moments greater than order 2 are equal to zero and in this case uncorrelated implies independent. If we have no prior assumptions then estimation of the joint moments E(XiYj) will give us information on 'how dependent' they are upon one another.

We can generalise this to signals X(t) and Y(t) by considering the cross-spectra

SX,Y(f),SX2,Y(f),SX,Y2(f)
across all frequencies f.

Example:

After reading 'pichenettes' comment I was inspired to use his idea as an example. Consider the signals

X(t)=sin(2πft)
Y(t)=sin(2πftk)
for kZ and k1. Clearly there is no linear transform sending X(t) to Y(t) as they oscillate at different frequencies. However, it is well known that we can write sin(kx) as a function in sin(x) and therefore,
Y(t)=f(X(t))
for some polynomial f.

Hence despite being uncorrelated signals, X(t) and Y(t) are not independent.


Can you please elaborate on what exactly the cross-spectra of Xx2,Y(f) is exactly? Thank you.
Spacey

en.wikipedia.org/wiki/Cross-spectrum Where we are considering the cross-spectra between the signals X2(t) and Y(t).
rwolst
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.