Kurtosis khổng lồ?


10

Tôi đang làm một số thống kê mô tả về lợi nhuận hàng ngày trên các chỉ số chứng khoán. Tức là nếu và là các mức của chỉ số vào ngày 1 và ngày 2, thì là mức hoàn trả mà tôi đang sử dụng (hoàn toàn chuẩn trong tài liệu).P1P2loge(P2P1)

Vì vậy, sự suy yếu là rất lớn trong một số trong số này. Tôi đang xem xét khoảng 15 năm dữ liệu hàng ngày (vì vậy khoảng lần quan sát chuỗi thời gian)26015

                      means     sds     mins    maxs     skews     kurts
ARGENTINA          -0.00031 0.00965 -0.33647 0.13976 -15.17454 499.20532
AUSTRIA             0.00003 0.00640 -0.03845 0.04621   0.19614   2.36104
CZECH.REPUBLIC      0.00008 0.00800 -0.08289 0.05236  -0.16920   5.73205
FINLAND             0.00005 0.00639 -0.03845 0.04622   0.19038   2.37008
HUNGARY            -0.00019 0.00880 -0.06301 0.05208  -0.10580   4.20463
IRELAND             0.00003 0.00641 -0.03842 0.04621   0.18937   2.35043
ROMANIA            -0.00041 0.00789 -0.14877 0.09353  -1.73314  44.87401
SWEDEN              0.00004 0.00766 -0.03552 0.05537   0.22299   3.52373
UNITED.KINGDOM      0.00001 0.00587 -0.03918 0.04473  -0.03052   4.23236
                   -0.00007 0.00745 -0.09124 0.06405  -1.82381  63.20596
AUSTRALIA           0.00009 0.00861 -0.08831 0.06702  -0.74937  11.80784
CHINA              -0.00002 0.00072 -0.40623 0.02031   6.26896 175.49667
HONG.KONG           0.00000 0.00031 -0.00237 0.00627   2.73415  56.18331
INDIA              -0.00011 0.00336 -0.03613 0.03063  -0.22301  10.12893
INDONESIA          -0.00031 0.01672 -0.24295 0.19268  -2.09577  54.57710
JAPAN               0.00008 0.00709 -0.03563 0.06591   0.57126   5.16182
MALAYSIA           -0.00003 0.00861 -0.35694 0.13379 -16.48773 809.07665

Câu hỏi của tôi là: Có vấn đề gì không?

Tôi muốn thực hiện phân tích chuỗi thời gian mở rộng trên dữ liệu này - phân tích hồi quy OLS và Quantile, và cả Granger Causality.

Cả phản ứng của tôi (phụ thuộc) và dự đoán (hồi quy) sẽ có đặc tính này của sự tổn thương khổng lồ. Vì vậy, tôi sẽ có các quá trình trả về ở hai bên của phương trình hồi quy. Nếu sự không bình thường tràn vào các nhiễu loạn sẽ chỉ làm cho các lỗi tiêu chuẩn của tôi có phương sai cao phải không?

(Có lẽ tôi cần một bootstrap mạnh mẽ?)


3
1) Bạn có thể muốn di chuyển trang này đến trang quant.stackexchange.com. 2) Bạn có ý nghĩa gì bởi vấn đề? Có cả một tài liệu về tác động của các ngoại lệ đối với các khoảnh khắc. Nó thường có thể là một nghệ thuật hơn là một khoa học.
Giăng

2
"Có vấn đề gì không?" quá mơ hồ. Bạn muốn làm gì với những dữ liệu này? Kurtoses lớn của bạn được liên kết với xiên trái lớn. Vì log (p2 / p1) = log p2 - log p1, một độ lệch trái lớn cho thấy rằng đã có một vài lần khi mức này rất thấp, nghĩa là p1 cao hơn nhiều so với p2, so với trường hợp thông thường. Có thể là một công ty sắp phá sản hoặc đại loại như thế.
Peter Flom - Tái lập Monica

Xin lỗi về điều này - tôi đã sửa đổi OP của tôi.

1
log-return thường bị lệch và đuôi nặng. Vì lý do này, nên xem xét các phân phối linh hoạt có thể nắm bắt hành vi này. Xem ví dụ 12 .

Bạn nên xem xét các biện pháp kutosis dựa trên L-khoảnh khắc
kjetil b halvorsen

Câu trả lời:


2

Có một cái nhìn về Lambert W x F đuôi nặng hoặc xiên Lambert W x F phân phối một thử (từ chối trách nhiệm: Tôi là tác giả). Trong R chúng được thực hiện trong gói LambertW .

Bài viết liên quan:

Một lợi thế so với phân phối Cauchy hoặc sinh viên với mức độ tự do cố định là các tham số đuôi có thể được ước tính từ dữ liệu - vì vậy bạn có thể để dữ liệu quyết định những khoảnh khắc tồn tại. Ngoài ra, khung Lambert W x F cho phép bạn chuyển đổi dữ liệu của mình và loại bỏ độ lệch / đuôi nặng. Itt là rất quan trọng để lưu ý rằng mặc dù OLS không đòi hỏi bình thường của hoặc . Tuy nhiên, đối với EDA của bạn, nó có thể đáng giá.XyX

Dưới đây là một ví dụ về các ước tính của Lambert W x Gaussian được áp dụng cho lợi nhuận của quỹ đầu tư.

library(fEcofin)
ret <- ts(equityFunds[, -1] * 100)
plot(ret)

Chuỗi thời gian quỹ vốn cổ phần

Các số liệu tóm tắt về lợi nhuận là tương tự (không cực đoan) như trong bài viết của OP.

data_metrics <- function(x) {
  c(mean = mean(x), sd = sd(x), min = min(x), max = max(x), 
    skewness = skewness(x), kurtosis = kurtosis(x))
}
ret.metrics <- t(apply(ret, 2, data_metrics))
ret.metrics

##          mean    sd    min   max skewness kurtosis
## EASTEU 0.1300 1.538 -18.42 12.38   -1.855    28.95
## LATAM  0.1206 1.468  -6.06  5.66   -0.434     4.21
## CHINA  0.0864 0.911  -4.71  4.27   -0.322     5.42
## INDIA  0.1515 1.502 -12.72 14.05   -0.505    15.22
## ENERGY 0.0997 1.187  -5.00  5.02   -0.271     4.48
## MINING 0.1315 1.394  -7.72  5.69   -0.692     5.64
## GOLD   0.1098 1.855 -10.14  6.99   -0.350     5.11
## WATER  0.0628 0.748  -5.07  3.72   -0.405     6.08

Hầu hết các loạt cho thấy rõ các đặc điểm không bình thường (độ lệch mạnh và / hoặc kurtosis lớn). Hãy Gaussianize từng chuỗi bằng cách sử dụng phân phối Lambert W x Gaussian đuôi nặng (= Tukey's h) bằng cách sử dụng phương pháp ước tính khoảnh khắc ( IGMM).

library(LambertW)
ret.gauss <- Gaussianize(ret, type = "h", method = "IGMM")
colnames(ret.gauss) <- gsub(".X", "", colnames(ret.gauss))

plot(ts(ret.gauss))

chuỗi thời gian của lợi nhuận Gaussianized

Các ô chuỗi thời gian hiển thị đuôi ít hơn nhiều và biến đổi ổn định hơn theo thời gian (mặc dù không phải là hằng số). Tính toán lại các số liệu trên chuỗi thời gian Gaussianized:

ret.gauss.metrics <- t(apply(ret.gauss, 2, data_metrics))
ret.gauss.metrics

##          mean    sd   min  max skewness kurtosis
## EASTEU 0.1663 0.962 -3.50 3.46   -0.193        3
## LATAM  0.1371 1.279 -3.91 3.93   -0.253        3
## CHINA  0.0933 0.734 -2.32 2.36   -0.102        3
## INDIA  0.1819 1.002 -3.35 3.78   -0.193        3
## ENERGY 0.1088 1.006 -3.03 3.18   -0.144        3
## MINING 0.1610 1.109 -3.55 3.34   -0.298        3
## GOLD   0.1241 1.537 -5.15 4.48   -0.123        3
## WATER  0.0704 0.607 -2.17 2.02   -0.157        3

Các IGMMthuật toán đạt được chính xác những gì nó đã được đặt ra để làm: chuyển đổi dữ liệu để có nhọn bằng để . Thật thú vị, tất cả các chuỗi thời gian bây giờ có độ lệch tiêu cực, phù hợp với hầu hết các tài liệu chuỗi thời gian tài chính. Điều quan trọng để chỉ ra ở đây chỉ hoạt động bên lề, không phải chung (tương tự ).3Gaussianize()scale()

Hồi quy bivariate đơn giản

Để xem xét ảnh hưởng của Gaussianization trên OLS, hãy xem xét dự đoán lợi nhuận "EASTEU" từ lợi nhuận "INDIA" và ngược lại. Mặc dù chúng tôi đang xem xét lợi nhuận trong cùng một ngày giữa trên (không có biến bị trễ), nó vẫn cung cấp giá trị cho dự đoán thị trường chứng khoán với chênh lệch thời gian 6h + giữa Ấn Độ và châu Âu. r I N D I A , trEASTEU,trINDIA,t

layout(matrix(1:2, ncol = 2, byrow = TRUE))
plot(ret[, "INDIA"], ret[, "EASTEU"])
grid()
plot(ret.gauss[, "INDIA"], ret.gauss[, "EASTEU"])
grid()

phân tán ẤN ĐỘ và EASTEU

Phân tán bên trái của loạt phim gốc cho thấy các ngoại lệ mạnh mẽ không xảy ra vào cùng một ngày, nhưng tại các thời điểm khác nhau ở Ấn Độ và Châu Âu; ngoài ra, không rõ liệu đám mây dữ liệu ở trung tâm không hỗ trợ tương quan hay phụ thuộc âm / dương. Do các ngoại lệ ảnh hưởng mạnh đến các ước tính phương sai và tương quan, nên đáng để xem xét sự phụ thuộc với các đuôi nặng bị loại bỏ (biểu đồ tán xạ phải). Ở đây các mô hình rõ ràng hơn nhiều và mối quan hệ tích cực giữa Ấn Độ và thị trường Đông Âu trở nên rõ ràng.

# try these models on your own
mod <- lm(EASTEU ~ INDIA * CHINA, data = ret)
mod.robust <- rlm(EASTEU ~ INDIA, data = ret)
mod.gauss <- lm(EASTEU ~ INDIA, data = ret.gauss)

summary(mod)
summary(mod.robust)
summary(mod.gauss)

Nhân quả Granger

Thử nghiệm quan hệ nhân quả Granger dựa trên mô hình (Tôi sử dụng để nắm bắt hiệu ứng tuần của các giao dịch hàng ngày) cho "EASTEU" và "INDIA" từ chối "không có quan hệ nhân quả Granger" cho cả hai hướng.p = 5VAR(5)p=5

library(vars)  
mod.vars <- vars::VAR(ret[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars, "INDIA")$Granger


## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars
## F-Test = 3, df1 = 5, df2 = 3000, p-value = 0.02

causality(mod.vars, "EASTEU")$Granger
## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars
## F-Test = 4, df1 = 5, df2 = 3000, p-value = 0.003

Tuy nhiên, đối với dữ liệu Gaussianized, câu trả lời là khác nhau! Ở đây, bài kiểm tra không thể từ chối H0 rằng "ẤN ĐỘ không gây ra EASTEU", nhưng vẫn từ chối rằng "EASTEU không gây ra Ấn Độ gây ra Ấn Độ". Vì vậy, dữ liệu Gaussianized ủng hộ giả thuyết rằng thị trường châu Âu thúc đẩy thị trường ở Ấn Độ vào ngày hôm sau.

mod.vars.gauss <- vars::VAR(ret.gauss[, c("EASTEU", "INDIA")], p = 5)
causality(mod.vars.gauss, "INDIA")$Granger

## 
##  Granger causality H0: INDIA do not Granger-cause EASTEU
## 
## data:  VAR object mod.vars.gauss
## F-Test = 0.8, df1 = 5, df2 = 3000, p-value = 0.5

causality(mod.vars.gauss, "EASTEU")$Granger

## 
##  Granger causality H0: EASTEU do not Granger-cause INDIA
## 
## data:  VAR object mod.vars.gauss
## F-Test = 2, df1 = 5, df2 = 3000, p-value = 0.06

Lưu ý rằng tôi không rõ câu trả lời nào là đúng (nếu có), nhưng đó là một quan sát thú vị để thực hiện. Không cần phải nói rằng toàn bộ thử nghiệm Nhân quả này phụ thuộc vào là mô hình chính xác - điều mà rất có thể là không; nhưng tôi nghĩ rằng nó phục vụ tốt cho Illustratiton.VAR(5)


1

Điều cần thiết là một mô hình phân phối xác suất phù hợp hơn với dữ liệu. Đôi khi, không có khoảnh khắc xác định. Một trong những phân phối như vậy là phân phối Cauchy. Mặc dù phân phối Cauchy có giá trị trung bình là giá trị mong đợi, không có giá trị trung bình ổn định và không có thời điểm cao hơn ổn định. Điều này có nghĩa là khi một người thu thập dữ liệu, các phép đo thực tế sẽ trông giống như ngoại lệ, nhưng là các phép đo thực tế. Ví dụ: nếu một người có hai phân phối bình thường F và G, với giá trị trung bình bằng 0 và một phân chia F / G, kết quả sẽ không có khoảnh khắc đầu tiên và là phân phối Cauchy. Vì vậy, chúng tôi vui vẻ thu thập dữ liệu và có vẻ như 5,3,9,6,2,4 và chúng tôi tính toán một giá trị trung bình có vẻ ổn định, sau đó, đột nhiên chúng tôi nhận được giá trị -32739876 và giá trị trung bình của chúng tôi trở nên vô nghĩa, nhưng lưu ý, trung vị là 4, ổn định. Như vậy đó là với các bản phân phối đuôi dài.

Chỉnh sửa: Bạn có thể thử phân phối t của Sinh viên với 2 bậc tự do. Phân phối đó có đuôi dài hơn phân phối bình thường, độ lệch và kurtosis không ổn định ( Sic , không tồn tại), nhưng giá trị trung bình và phương sai được xác định, nghĩa là ổn định.

Chỉnh sửa tiếp theo: Một khả năng có thể là sử dụng hồi quy Theil. Dù sao, đó là một suy nghĩ, bởi vì Theil sẽ hoạt động tốt cho dù đuôi trông như thế nào. Theil có thể được thực hiện MLR (nhiều hồi quy tuyến tính bằng cách sử dụng độ dốc trung bình). Tôi chưa bao giờ thực hiện Theil cho phù hợp với dữ liệu biểu đồ. Nhưng, tôi đã thực hiện Theil với một biến thể jackknife để thiết lập khoảng tin cậy. Ưu điểm của việc đó là Theil không quan tâm hình dạng phân phối là gì và, các câu trả lời thường ít sai lệch hơn so với OLS vì thông thường OLS được sử dụng khi có phương sai trục độc lập có vấn đề. Không phải là Theil hoàn toàn không bị ảnh hưởng, đó là độ dốc trung bình. Các câu trả lời cũng có một ý nghĩa khác nhau, nó tìm thấy một thỏa thuận tốt hơn giữa các biến phụ thuộc và biến độc lập trong đó OLS tìm ra yếu tố dự đoán lỗi ít nhất của biến phụ thuộc,


2
Thông tin tốt đẹp, cảm ơn. Bạn có biết một số nguồn tài liệu (khá nhỏ gọn) để đọc thêm không? Tôi có một vấn đề hoàn toàn khác với đuôi dài, nhưng tôi nghĩ dữ liệu của tôi chỉ là sự phân phối hỗn hợp của các kịch bản khác nhau.
flaschenpost

Tôi sử dụng Mathicala, và việc phân phối phù hợp cũng như xác định phân phối mảnh khôn ngoan không khó trong ngôn ngữ đó. Ví dụ, nhìn vào điều này . Nói chung, các biến ngẫu nhiên thêm bằng tích chập, nhưng trong thực tế tích chập các hàm mật độ là một thách thức. Một số người chỉ xác định hàm mật độ xác định cho các biến được trộn lẫn, ví dụ: thêm đuôi theo cấp số nhân ánh sáng vào phân phối gamma nặng hơn bị kiểm duyệt sau giá trị tối đa của mô hình tần số động đất. @flaschenpost
Carl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.