Phương pháp tạo dữ liệu không bình thường tương quan


14

Tôi quan tâm đến việc tìm ra một phương pháp để tạo ra dữ liệu tương quan, không bình thường. Vì vậy, lý tưởng một số loại phân phối lấy ma trận hiệp phương sai (hoặc tương quan) làm tham số và tạo dữ liệu gần đúng với nó. Nhưng đây là một nhược điểm: phương pháp tôi đang cố gắng tìm ra nên có sự linh hoạt để kiểm soát độ lệch đa biến và / hoặc kurtosis của nó.

Tôi quen thuộc với phương pháp của Fleishman và việc sử dụng phương pháp sức mạnh của các biến thể thông thường, nhưng tôi tin rằng hầu hết các tiện ích mở rộng đó chỉ cho phép người dùng sử dụng một số kết hợp nhất định của độ lệch biên và kurtosis, để lại sự sai lệch / nhiễu loạn đa biến. Điều tôi băn khoăn là liệu có một phương pháp nào giúp chỉ định độ lệch đa biến và / hoặc kurtosis, cùng với một số cấu trúc tương quan / hiệp phương sai.

Khoảng một năm trước, tôi đã tham gia một cuộc hội thảo về các bản phân phối copula và tôi nhớ rằng giáo sư đã đề cập một cách tình cờ rằng thông qua việc sử dụng các công thức của cây nho, người ta có thể tạo ra dữ liệu đối xứng trong mỗi một trong các lề 1-D của nó nhưng lại bị lệch và ngược lại -versa. Hoặc, thậm chí xa hơn, rằng bất kỳ lề chiều thấp hơn có thể có một số sai lệch hoặc kurtosis trong khi giữ kích thước cao nhất đối xứng (hoặc không). Tôi đã rất ngạc nhiên với ý tưởng rằng sự linh hoạt như vậy có thể tồn tại Tôi đã cố gắng tìm một loại bài báo hoặc tài liệu hội nghị mô tả phương pháp đã nói nhưng tôi đã không thành công :(. Nó không phải thông qua việc sử dụng các công thức, Tôi cởi mở với bất cứ điều gì hoạt động.

Chỉnh sửa: Tôi đã thêm một số mã R để cố gắng hiển thị những gì tôi muốn nói. Cho đến nay tôi chỉ quen thuộc với định nghĩa của Mardia về sự lệch lạc và kurtosis đa biến. Khi tôi lần đầu tiên tiếp cận vấn đề của mình, tôi đã ngây thơ nghĩ rằng nếu tôi sử dụng một copula đối xứng (Gaussian trong trường hợp này) với các lề bị lệch (beta, trong ví dụ này), các thử nghiệm đơn biến trên các lề sẽ mang lại ý nghĩa nhưng xét nghiệm của Mardia về độ lệch đa biến không quan trọng Tôi đã thử điều đó và nó đã không thành công như tôi mong đợi:

library(copula)
library(psych)
set.seed(101)

cop1 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("beta", "beta"),list(list(shape1=0.5, shape2=5), 
            list(shape1=0.5, shape2=5)))}

            Q1 <- rmvdc(cop1, 1000)
            x1 <- Q1[,1]
            y1 <- Q1[,2]


cop2 <- {mvdc(normalCopula(c(0.5), dim=2, dispstr="un"), 
            c("norm", "norm"),list(list(mean=0, sd=1), 
            list(mean = 0, sd=1)))}

            Q2 <- rmvdc(cop2, 1000)
            x2 <- Q2[,1]
            y2 <- Q2[,2]

mardia(Q1)  

Call: mardia(x = Q1)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  10.33   skew =  1720.98  with probability =  0
small sample skew =  1729.6  with probability =  0
b2p =  22.59   kurtosis =  57.68  with probability =  0

mardia(Q2)
Call: mardia(x = Q2)

Mardia tests of multivariate skew and kurtosis
Use describe(x) the to get univariate tests
n.obs = 1000   num.vars =  2 
b1p =  0.01   skew =  0.92  with probability =  0.92
 small sample skew =  0.92  with probability =  0.92
b2p =  7.8   kurtosis =  -0.79  with probability =  0.43

Khi kiểm tra các đường viền cho 'cop1' VS 'cop2' cũng như các ô mật độ bivariate theo kinh nghiệm, tôi cũng có thể thấy rằng không ai trong số chúng trông đối xứng cả. Đó là khi tôi nhận ra điều này có lẽ phức tạp hơn tôi nghĩ.

Tôi biết rằng Mardia không phải là định nghĩa duy nhất về độ lệch / kurtosis đa biến, vì vậy tôi không giới hạn bản thân trong việc tìm ra một phương pháp chỉ thỏa mãn định nghĩa của Mardia.

cảm ơn bạn!


+1 Một câu hỏi thú vị nhất. Bạn có thể nói cụ thể hơn về những gì 'chung lệch' có nghĩa là gì trong bối cảnh này (đặc biệt là một trường hợp bivariate)? Mặc dù tôi có thể hình dung các hình thức phân phối chung theo một nghĩa nào đó "khác biệt" trong bốn góc phần tư (về các trục được đặt ở phương tiện, giả sử), tôi không quen với những gì "xiên chung" có thể đề cập cụ thể.
Glen_b -Reinstate Monica

điểm kinh nghiệmXX

xin chào. cảm ơn bạn rất nhiều vì đã quan tâm đến câu hỏi của tôi Đây là lần đầu tiên tôi đăng bài ở đây vì vậy tôi hy vọng tôi đang làm mọi thứ một cách chính xác. tôi sẽ giải thích chi tiết hơn về phần bình luận vì giới hạn ký tự ngăn tôi sử dụng mã R để thử và truyền đạt những gì tôi đang làm
S. Punky

vâng, tôi chỉ nhận ra điều đó và thêm chi tiết. Tôi đánh giá cao việc bạn dành thời gian để hướng dẫn tôi cách sử dụng bảng này. cảm ơn!
S. Punky

" không giới hạn bản thân mình trong việc tìm kiếm một phương pháp chỉ thỏa mãn định nghĩa của Mardia " - phương pháp làm gì?
Glen_b -Reinstate Monica

Câu trả lời:


3

Sau nhiều tìm kiếm, nhảy diễn đàn xung quanh trực tuyến, trao đổi với các giáo sư và làm rất nhiều nghiên cứu tài liệu, tôi đã đi đến kết luận rằng có lẽ THE cách duy nhất để giải quyết vấn đề này là thông qua việc sử dụng các copulas cây nho thật. Nó cung cấp cho bạn một số quyền kiểm soát đối với độ lệch và kurtosis theo cặp (hoặc bất kỳ khoảnh khắc nào cao hơn) - đối với vectơ ngẫu nhiên p-variated và tự do chỉ định cặp p-1 và các p * (p-1) / 2 - (- p-1) kích thước có thể được chỉ định trong một số loại copula có điều kiện.

Tôi hoan nghênh các phương pháp khác mà mọi người có thể bắt gặp nhưng ít nhất tôi sẽ để con trỏ này trả lời vì tôi không thể tìm thấy bất kỳ cách nào khác để giải quyết vấn đề này.


2
Một copula nho là gì?
Sextus Empiricus

1

Bạn có thể giải quyết điều này bằng cách sửa đổi thuật toán của Ruscio và Kaczetow (2008). Bài viết của họ cung cấp một thuật toán lặp (với mã R) để giảm thiểu sự khác biệt giữa các hình dạng biên thực tế và dự định. Bạn có thể sửa đổi nó để nhắm mục tiêu vào các khoảnh khắc đa biến (chứ không phải cận biên).

Ruscio, J., & Kaczetow, W. (2008). Mô phỏng dữ liệu đa biến bất thường bằng thuật toán lặp. Nghiên cứu hành vi đa biến, 43 (3), 355‐381. doi: 10.1080 / 00273170802285693


CHÚA ƠI! CẢM ƠN BẠN! Tôi đã nghĩ một lúc rằng câu hỏi này sẽ bị nuốt vào quên lãng
S. Punky

1
tốt ... tôi đã xem lại bài viết của Ruscio & Kaczetow (2008). thật đáng buồn, đó chỉ là một triển khai khác (nhưng linh hoạt hơn) của họ thuật toán NORTA (NORmal To Anything) vốn được biết là không hoạt động tốt với các khoảnh khắc thứ 3 & 4 đa biến. Tôi đoán tôi sẽ quay lại quảng trường này.
S. Punky

0

Bạn có thể muốn kiểm tra Phân phối hình elip tổng quát , cho phép tạo ma trận hình dạng "cổ điển" với tính linh hoạt cho các tính năng khác.


Cảm ơn bạn! Tôi sẽ đảm bảo kiểm tra liên kết này. Bây giờ, không phải là phân phối elip đối xứng? Vì vậy, người ta có thể kiểm soát kurtosis nhưng độ lệch phải duy trì ở mức 0?
S. Punky

Chắc chắn, nhưng GE không ngụ ý hình elip. Đối với một số biến thể elip xiên cũng kiểm tra tại đây: stat.tamu.edu/~genton/STAT689/TAMU2009SE.pdf
Quartz

0

Tôi đã đưa ra một phương pháp đơn giản để làm điều này không liên quan đến coplas và các thiết kế phức tạp khác. Tôi sợ rằng tôi không có bất kỳ tài liệu tham khảo chính thức nào mặc dù phương pháp này có hiệu quả cao.

Ý tưởng rất đơn giản. 1. Vẽ bất kỳ số lượng biến từ một phân phối bình thường chung. 2. Áp dụng CDF thông thường đơn biến của các biến để lấy xác suất cho mỗi biến. 3. Cuối cùng áp dụng CDF nghịch đảo của bất kỳ phân phối nào để mô phỏng các lần rút từ phân phối đó.

Tôi đã đưa ra phương pháp này vào năm 2012 và đã chứng minh bằng Stata . Tôi cũng đã viết một bài đăng gần đây cho thấy cùng một phương pháp sử dụng R .


(1) "Phân phối bình thường của Spearman" là gì? (2) Bạn đang tạo ra sự khác biệt nào, nếu có, giữa CDF và "CDF bình thường"? (3) Bạn có thể giải thích làm thế nào phương pháp này giới thiệu bất kỳ mối tương quan nào không? Tôi e rằng việc sử dụng chung "biến" và "phân phối" của bạn làm cho mô tả của bạn khá mơ hồ, vì vậy thật khó để nói nó thực sự đang làm gì. Bạn có thể điều chỉnh lại câu trả lời của bạn để chính xác hơn?
whuber

Cảm ơn vì bài đăng của bạn! bằng cách theo các liên kết người ta có thể xem thêm thông tin về phương pháp. nó không hoàn toàn làm những gì tôi đã hy vọng đạt được (nghĩa là kiểm soát các khoảnh khắc cao hơn, chiều cao hơn của phân phối) nhưng vẫn là một cách tiếp cận rất có giá trị.
S. Punky

1
Không có gì đáng ngạc nhiên, tôi đã không đưa ra một phương pháp mới, xem: Cario, Marne C., và Barry L. Nelson. Mô hình hóa và tạo các vectơ ngẫu nhiên với các phân phối biên tùy ý và ma trận tương quan. Báo cáo kỹ thuật, Khoa Khoa học quản lý và Kỹ thuật công nghiệp, Đại học Tây Bắc, Evanston, Illinois, 1997. Yahav, Inbal, và Galit Shmueli. "Về việc tạo dữ liệu poisson đa biến trong các ứng dụng khoa học quản lý." Tài liệu nghiên cứu của trường Robert H. Smith số RHS (2009): 06-085.
Francis Smart

ngay cả khi đó không phải là một 'phương pháp mới', tôi vẫn muốn cảm ơn bạn vì đã dành thời gian để xem qua câu hỏi của tôi và thêm một cái gì đó sâu sắc :)
S. Punky

0

Tôi tin rằng phương pháp được trình bày trong các bài báo sau đây cho phép tạo ra nhiều biến số ngẫu nhiên với bất kỳ sự kết hợp (khả thi) nào giữa trung bình, phương sai, độ lệch và kurtosis.

  1. Stanfield, PM, Wilson, JR và Mirka, GA 1996. Mô hình hóa đầu vào đa biến với các bản phân phối Johnson, Kỷ yếu của Hội nghị mô phỏng mùa đông năm 1996 , biên tập. Charnes, JM, Morrice, DJ, Brunner, DT và Swain, JJ, 1457-1464.
  2. Stanfield, PM, Wilson, JR và King, RE 2004. Mô hình hóa linh hoạt thời gian hoạt động tương quan với ứng dụng trong các cơ sở tái sử dụng sản phẩm, Tạp chí Nghiên cứu Sản xuất Quốc tế , Tập 42, Số 11, 2179 21196.

Tuyên bố miễn trừ trách nhiệm: Tôi không phải là một trong những tác giả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.