Trực giác / giải thích sự phân bố giá trị riêng của ma trận tương quan?


13

Trực giác / giải thích của bạn về phân phối giá trị riêng của ma trận tương quan là gì? Tôi có xu hướng nghe rằng thường có 3 giá trị riêng lớn nhất là quan trọng nhất, trong khi những giá trị gần bằng 0 là nhiễu. Ngoài ra, tôi đã thấy một vài tài liệu nghiên cứu điều tra cách phân phối eigenvalue tự nhiên khác với các tính toán từ ma trận tương quan ngẫu nhiên (một lần nữa, phân biệt nhiễu với tín hiệu).

Xin vui lòng giải thích về những hiểu biết của bạn.


Bạn có nhớ bất kỳ ứng dụng cụ thể nào không, đó là bạn tìm kiếm những lời khuyên chung về số lượng EV chúng ta cần xem xét ngoài bất kỳ ứng dụng nào (ví dụ về mặt toán học thuần túy) hoặc nên áp dụng cho một bối cảnh cụ thể (ví dụ: phân tích nhân tố, PCA, v.v.)?
chl

Tôi quan tâm nhiều hơn đến khía cạnh toán học, tức là giá trị bản địa như một thuộc tính của dữ liệu nằm dưới ma trận tương quan. Nếu nó hợp lý để thảo luận về điều này trong bối cảnh cụ thể, hãy thoải mái làm điều đó.
Eduardas

Câu trả lời:


4

Tôi có xu hướng nghe rằng thường có 3 giá trị riêng lớn nhất là quan trọng nhất, trong khi những giá trị gần bằng 0 là nhiễu

Bạn có thể kiểm tra cho điều đó. Xem bài viết liên kết trong bài này để biết thêm chi tiết. Một lần nữa, nếu bạn giao dịch với chuỗi thời gian tài chính, trước tiên bạn có thể muốn sửa lỗi cho leptokurtility (nghĩa là xem xét chuỗi lợi nhuận được điều chỉnh garch, không phải là lợi nhuận thô).

Tôi đã thấy một vài tài liệu nghiên cứu điều tra cách phân phối eigenvalue tự nhiên khác với các tính toán từ ma trận tương quan ngẫu nhiên (một lần nữa, phân biệt nhiễu với tín hiệu).

Edward:> Thông thường, người ta sẽ làm điều đó theo cách khác: nhìn vào sự phân phối đa biến của các giá trị riêng (của ma trận tương quan) đến từ ứng dụng bạn muốn. Khi bạn đã xác định được một ứng cử viên đáng tin cậy cho việc phân phối giá trị bản địa, việc tạo ra chúng khá dễ dàng.

Quy trình tốt nhất về cách xác định phân phối đa biến của giá trị bản địa của bạn phụ thuộc vào số lượng tài sản bạn muốn xem xét đồng thời (nghĩa là các kích thước của ma trận tương quan của bạn là gì). Có một trick gọn gàng nếu ( p là số tài sản).p10p

Chỉnh sửa (bình luận của Shabbychef)

thủ tục bốn bước:

  1. Giả sử bạn có mẫu phụ của dữ liệu đa biến. Bạn cần một công cụ ước tính của ma trận hiệp phương sai ˜ C j cho mỗi mẫu phụ j (bạn có thể sử dụng công cụ ước tính cổ điển hoặc một phương pháp thay thế mạnh như MCD nhanh , được triển khai tốt trong matlab, SAS, S, R ,. ..). Như thường lệ, nếu bạn giao dịch với chuỗi thời gian tài chính, bạn sẽ muốn xem xét chuỗi lợi nhuận được điều chỉnh garch, chứ không phải lợi nhuận thô.j=1,...,JC~jj
  2. jΛ~j= log(λ~1j)log(λ~pj)C~j
  3. CV(Λ~)J×pΛ~j
  4. CV(Λ~)wiCV(Λ~)wi=γii=1pγiγi

J2


1
Tôi tò mò: mẹo là gì?
shabbychef

C~

λ1

Đây là một thủ tục rất kỳ quặc; nó đã được xuất bản ở đâu đó?
shabbychef

@Shabbychev:> không, nhưng tôi đã có cơ hội để làm việc trên một vấn đề liên quan (chỉ cần không phải là một liên quan đến chuỗi thời gian) một thời gian trước (cùng một vấn đề như này stats.stackexchange.com/questions/2572/... )
user603

11

Eigenvalues ​​cho độ lớn của các thành phần nguyên tắc của sự lan truyền dữ liệu.



(3001)π/4


2

k

Thông thường danh mục đầu tư riêng có trọng số gần như bằng nhau trong mỗi tên, nghĩa là danh mục đầu tư 'thị trường' bao gồm tất cả các tài sản có trọng lượng đô la bằng nhau. Danh mục đầu tư thứ hai có thể có một số ý nghĩa ngữ nghĩa, tùy thuộc vào khoảng thời gian bạn xem qua: ví dụ: chủ yếu là cổ phiếu năng lượng, hoặc cổ phiếu ngân hàng, v.v. Theo kinh nghiệm của tôi, bạn sẽ khó có thể đưa ra bất kỳ câu chuyện nào từ danh mục đầu tư thứ năm hoặc xa hơn, và điều này phụ thuộc vào một số lựa chọn vũ trụ và khoảng thời gian được xem xét. Điều này là tốt vì thường thì giá trị riêng thứ năm hoặc không quá vượt quá giới hạn được phân phối bởi Marchenko-Pastur.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.