Phân tích thành phần chính có thể được sử dụng trên giá cổ phiếu / dữ liệu không cố định?


10

Tôi đang đọc một ví dụ được đưa ra trong cuốn sách, Machine Learning for Hackers . Trước tiên tôi sẽ giải thích về ví dụ và sau đó nói về câu hỏi của tôi.

Ví dụ :

Lấy một bộ dữ liệu trong 10 năm với giá 25 cổ phiếu. Chạy PCA với giá 25 cổ phiếu. So sánh thành phần chính với Chỉ số Dow Jones. Quan sát sự tương đồng rất mạnh mẽ giữa PC và DJI!

Từ những gì tôi hiểu, ví dụ giống như một món đồ chơi để giúp những người mới như tôi hiểu PCA có hiệu quả như thế nào!

Tuy nhiên, đọc từ một nguồn khác , tôi thấy rằng giá cổ phiếu là không cố định và chạy PCA về giá cổ phiếu là vô lý. Các nguồn từ nơi tôi đọc hoàn toàn chế giễu ý tưởng tính hiệp phương sai và PCA cho giá cổ phiếu.

Câu hỏi :

  1. Làm thế nào mà ví dụ làm việc rất tốt? PCA của giá cổ phiếu và DJI rất gần nhau. Và dữ liệu là dữ liệu thực từ giá cổ phiếu 2002-2011.

  2. Ai đó có thể chỉ cho tôi một số tài nguyên tốt để đọc dữ liệu văn phòng phẩm / không cố định không? Tôi là một lập trình viên. Tôi có một nền tảng toán học tốt. Nhưng tôi đã không làm toán nghiêm túc trong 3 năm. Tôi đã bắt đầu đọc lại về những thứ như đi bộ ngẫu nhiên, vv

Câu trả lời:


10

Phần này phục vụ để trả lời một phần câu hỏi ban đầu và một số câu hỏi được nêu trong các nhận xét cho câu trả lời của @ JonEgil.

Lợi nhuận tài chính (logarit) * xấp xỉ (mặc dù thường có một số dị thể có điều kiện) - trong khi giá cả xấp xỉ ngẫu nhiên. Theo giả định của quan sát, phân tích thành phần chính sẽ trực tiếp khái quát từ mẫu cho nhân dân (tức là thành phần chủ yếu mẫu sẽ được ước tính dân số thành phần chủ yếu), nhưng điều này có thể không giữ dưới phi quan sát - xem chủ đề này . Đây là lý do tại sao nên chạy PCA khi trả về (logarit) thay vì giá cả.i . i . d . i . i . d .Tôi.Tôi.d.Tôi.Tôi.d.Tôi.Tôi.d.

Ruey S. Tsay đã lập luận về việc điều hành PCA trên phần dư từ các mô hình kinh tế lượng của chuỗi thời gian tài chính, vì phần dư thường được coi là Tôi nghĩ rằng ý tưởng này có thể được đưa vào một số vị trí trong "Phân tích chuỗi thời gian đa biến với R và ứng dụng tài chính" sách giáo khoa (ông đã giải thích ý tưởng này cho tôi trực tiếp, vì vậy tôi không chắc nó được viết ở đâu).Tôi.Tôi.d.

* nhuận logarit trên giá được xác định là . Trả về logarit được sử dụng để thuận tiện thay cho tỷ lệ phần trăm trả về . Tính năng tiện lợi của lợi nhuận logarit là bạn có thể tổng hợp lợi nhuận logarit riêng lẻ để có được tổng lợi nhuận logarit trong khoảng thời gian , trong khi điều này không giữ được tỷ lệ phần trăm. Đối với lợi nhuận phần trăm tương đối nhỏ (vốn phổ biến trong tài chính), logarit trả về tỷ lệ phần trăm lợi nhuận bằng nhau vì logarit có độ dốc xấp xỉ đơn vị quanh một. r : = log ( P t ) - log ( P t - 1 ) = log P tPt r':=Pt-Pt-1r: =đăng nhập(Pt)-đăng nhập(Pt-1)= =đăng nhậpPtPt-1 hhr': =Pt-Pt-1Pt-1hh


1
+1, điều này thật thú vị. Bạn có thể mở rộng một chút về những gì thực sự là "trở lại"? Kiến thức về kinh tế của tôi bằng không; Tôi đã googled và thấy rằng nếu giá được đưa ra bởi chuỗi thời gian , thì lợi nhuận được xác định là . Đúng không? Nếu vậy, tại sao logarit? Tôi sẽ hiểu lập luận của bạn về mối quan hệ giữa lợi nhuận của iid và giá đi bộ ngẫu nhiên nếu lợi nhuận được xác định là chênh lệch. Ngoài ra, DJ là mức giá trung bình, vì vậy tôi vẫn không hiểu tại sao lợi nhuận của PC1 phải phù hợp hơn so với PC1 về giá cả, thậm chí còn cân nhắc của bạn về iid. f(tTôi)đăng nhậpf(tTôi+1)f(tTôi)
amip nói rằng Phục hồi Monica

1
@amoeba, tôi đã thêm một lời giải thích nhanh chóng và phải rời đi ngay bây giờ. Tôi hy vọng tôi đã không phạm quá nhiều sai lầm ở đó. Tôi sẽ trở lại vào ngày mai nếu có bất kỳ vấn đề nào nữa.
Richard Hardy

1
Cảm ơn. Bây giờ tôi thấy rằng lợi nhuận (lợi nhuận logarit) về cơ bản là một công cụ phái sinh (chênh lệch đầu tiên) của logarit của giá cả. Vì vậy, nếu tuyên bố là lợi nhuận là iid và giá đăng nhập là ngẫu nhiên, thì nó có ý nghĩa. Tuy nhiên, tôi vẫn ngạc nhiên với ví dụ của Dow Jones và sẽ đánh giá cao bất kỳ sự làm rõ nào khác.
amip nói phục hồi Monica

6

Tôi chạy các loại phân tích chuyên nghiệp và có thể xác nhận rằng chúng thực sự hữu ích. Nhưng hãy chắc chắn rằng bạn phân tích lợi nhuận không phải giá. Điều này cũng được nhấn mạnh bởi các bài phê bình trong Slender Means:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Một usecase điển hình trong phân tích của chúng tôi là để định lượng rủi ro hệ thống trên thị trường. Càng nhiều sự hợp tác trong thị trường, bạn càng có ít sự đa dạng hóa trong danh mục đầu tư của mình. Điều này có thể, ví dụ, được định lượng bằng lượng phương sai được mô tả bởi thành phần chính đầu tiên. Giá trị này giống hệt với giá trị của giá trị riêng đầu tiên.

Đối với dữ liệu tài chính, người ta thường kiểm tra một cửa sổ chuyển động theo thời gian. Một số hình thức của yếu tố phân rã làm giảm các quan sát cũ là hữu ích. Đối với dữ liệu hàng ngày, mọi thứ từ 20-60 ngày, đối với dữ liệu hàng tuần có thể 1-2 năm, tất cả tùy thuộc vào nhu cầu của bạn.

Lưu ý rằng đối với các thị trường tài chính toàn cầu, với hàng chục hoặc hàng trăm ngàn giá tài sản thay đổi liên tục, một kiểu chữ không thể chạy ma trận hiệp phương sai 100K so với 100K. Thay vào đó, usecase điển hình là chạy phân tích theo từng quốc gia, theo từng lĩnh vực hoặc các nhóm có ý nghĩa khác. Hoặc chia nhỏ lợi nhuận bằng một tập hợp các yếu tố cơ bản (giá trị, kích thước, chất lượng, tín dụng ....) và thực hiện phân tích PCA / Hiệp phương sai về các yếu tố này.

Một số điều đẹp bao gồm thảo luận Attilio Meucci về số hiệu quả của cược: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

và cả Ledoit và Wolf's Honey Tôi đã thu nhỏ ma trận hiệp phương sai mẫu http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Đối với một giới thiệu định hướng tài chính cho văn phòng phẩm, tại sao không bắt đầu với Investopedia. Nó không nghiêm ngặt, nhưng truyền tải những ý tưởng chính.

Chúc may mắn!

EDIT: Dưới đây là ví dụ 3 cổ phiếu cho thấy Apple, Google và Dow Jones với lợi nhuận hàng ngày trong năm 2015. Tam giác trên cho thấy mối tương quan của lợi nhuận, tam giác dưới cho thấy mối tương quan của giá cả.

Tương quan lợi nhuận tam giác trên, tương quan giá tam giác thấp hơn

Có thể thấy, Apple có tương quan giá cao hơn với Dow (dưới cùng bên trái 0,76) so với tương quan lợi nhuận (trên cùng bên phải 0,66). Chúng ta có thể học được gì từ đó? Không nhiều. Google có mối tương quan giá âm với cả Apple (-0,28) và Dow (-0,27). Một lần nữa, không có nhiều để học hỏi từ đó. Tuy nhiên, mối tương quan lợi nhuận cho chúng ta biết rằng cả Apple và Google đều có mối tương quan khá cao với chỉ số Dow (tương ứng 0,66 và 0,53). Điều đó cho chúng ta biết điều gì đó về sự hợp tác (thay đổi giá) của tài sản trong một danh mục đầu tư. Đó là thông tin hữu ích.

Điểm chính là mặc dù tương quan giá có thể dễ dàng tính toán, nhưng nó không thú vị. Tại sao? Bởi vì giá của một cổ phiếu tự nó không thú vị. Thay đổi giá , tuy nhiên, là rất thú vị.


Bạn có thể vui lòng mở rộng thêm về phần chính của câu hỏi về sự khác biệt giữa việc sử dụng giá so với lợi nhuận không? Tôi hiểu rằng khi sử dụng giá cả, ma trận tương quan sẽ bị ảnh hưởng bởi sự không ổn định; ví dụ: nếu tất cả giá tăng trưởng tuyến tính, thì tất cả các mối tương quan sẽ tích cực mạnh mẽ. Đầu tiên, tại sao nó xấu? Đặc biệt là cho rằng Jones Jones về cơ bản là một mức giá trung bình và nó cũng sẽ tăng trưởng (như PC1 sẽ). Thứ hai, làm thế nào là sử dụng lợi nhuận được cho là để giúp đỡ? AFAIK "lợi nhuận" là tỷ lệ được ghi lại của các điểm lân cận; Tại sao nó có ý nghĩa và nó liên quan đến Dow Jones như thế nào?
amip nói phục hồi Monica

Cảm ơn vì câu trả lời đầy thông tin của bạn. Nhưng nó không trả lời câu hỏi của tôi. Tôi muốn hiểu tại sao phân tích về giá đang hoạt động rất tốt cho dữ liệu được đặt trong sách? Và amip đã đưa ra rất nhiều câu hỏi hợp lệ.
claudius

1
@claudius: Việc PCA về giá đưa ra một cái gì đó tương tự như Dow Jones, mức giá trung bình không có gì đáng ngạc nhiên cả. Tôi khá thắc mắc tại sao PCA khi trả lại tạo ra sự phù hợp tốt hơn. Có lẽ Jon sẽ có thể làm rõ.
amip nói phục hồi Monica

1
Tôi đã không nhìn vào mã thực tế chạy trong ML cho Hacker, nhưng bất cứ khi nào ai đó nói rằng họ phân tích giá, 99 lần trong số 100 những gì họ thực sự phân tích là lợi nhuận. Ví dụ, hôm nay, chỉ số Dow giảm 162 điểm, trong khi Apple giảm 0,88 đô la. Các con số không chỉ khác nhau rất nhiều, chúng thậm chí còn ở một quy mô khác, điểm chỉ số so với tiền. Nhưng trong điều khoản pct 0,91% và 0,75% là tương đương và con số bạn muốn làm việc với. Đối với một số phân tích, người ta có thể khử xu hướng dữ liệu bằng cách trừ đi giá trị trung bình. Trong thời gian tài chính ngắn hạn, điều này thường bị bỏ qua, giả sử không có xu hướng.
Jon Egil

1
@amoeba, To (một phần) trả lời các câu hỏi được nêu trong các nhận xét, lợi nhuận là xấp xỉ iid trong khi giá xấp xỉ ngẫu nhiên. Các thành phần chính có các đặc tính tốt đẹp của chúng theo giả định của các quan sát iid. Đây là lý do tại sao nó có ý nghĩa để chạy PCA trên lợi nhuận hơn là giá cả. Ruey S. Tsay đã lập luận về việc điều hành PCA trên các phần dư từ các mô hình kinh tế lượng của chuỗi thời gian tài chính, vì phần dư thường được coi là iid Tôi nghĩ rằng có thể được đưa vào một số vị trí trong sách giáo khoa "Phân tích chuỗi thời gian đa biến với R và ứng dụng tài chính".
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.