Khi nào hiệp phương sai khoảng cách ít thích hợp hơn hiệp phương sai tuyến tính?


21

Tôi vừa được giới thiệu (mơ hồ) về hiệp phương sai / khoảng cách / tương quan . Nó có vẻ đặc biệt hữu ích trong nhiều tình huống phi tuyến tính, khi kiểm tra sự phụ thuộc. Nhưng nó dường như không được sử dụng rất thường xuyên, mặc dù hiệp phương sai / tương quan thường được sử dụng cho dữ liệu phi tuyến tính / hỗn loạn.

Điều đó khiến tôi nghĩ rằng có thể có một số hạn chế đối với hiệp phương sai. Vậy chúng là gì và tại sao mọi người không luôn sử dụng hiệp phương sai?



Tôi đọc được rằng bạn đang sử dụng dcov để so sánh chuỗi thời gian phi tuyến tính và kết hợp chúng với trọng số..Tôi tự hỏi liệu những gì bạn đã làm là sử dụng hiệp phương sai khoảng cách có trọng số..meaning rằng bạn đã đưa ra các trọng số khác nhau cho dữ liệu của mình bằng cách sử dụng vectơ trọng số để tính toán mối tương quan khoảng cách? Tôi đang cố gắng để làm điều đó nhưng tôi không chắc chắn nếu đưa một vectơ trọng lượng vào các công thức tương quan khoảng cách là cách đúng đắn.
dùng3757561

Không, xin lỗi @ user3757561, tôi chỉ thử tương quan khoảng cách để thay thế cho tương quan, và sau đó tạo trọng số dựa trên điều đó. Nhưng dù sao thì cuối cùng tôi cũng không sử dụng nó ...
naught101

Câu trả lời:


18

Tôi đã cố gắng thu thập một vài nhận xét về hiệp phương sai dựa trên ấn tượng của tôi từ việc đọc các tài liệu tham khảo được liệt kê dưới đây. Tuy nhiên, tôi không coi mình là một chuyên gia về chủ đề này. Bình luận, sửa chữa, đề xuất, vv đều được chào đón.

Các nhận xét là (mạnh mẽ) thiên về những hạn chế tiềm năng, như được yêu cầu trong câu hỏi ban đầu .

Như tôi thấy, những nhược điểm tiềm năng như sau:

  1. Phương pháp là mới . Tôi đoán rằng đây là yếu tố lớn nhất liên quan đến sự thiếu phổ biến tại thời điểm này. Các giấy tờ phác thảo khoảng cách hiệp phương sai bắt đầu vào giữa những năm 2000 và tiến tới ngày nay. Bài báo được trích dẫn ở trên là bài nhận được nhiều sự chú ý nhất (cường điệu?) Và nó chưa đầy ba tuổi. Ngược lại, lý thuyết và kết quả về các biện pháp tương quan và tương quan có hơn một thế kỷ làm việc đã đứng sau chúng.
  2. Các khái niệm cơ bản là thách thức hơn . Mối tương quan thời điểm sản phẩm của Pearson, ở cấp độ hoạt động, có thể được giải thích cho sinh viên năm nhất đại học mà không có nền tảng tính toán khá dễ dàng. Một quan điểm "thuật toán" đơn giản có thể được đặt ra và trực giác hình học rất dễ mô tả. Ngược lại, trong trường hợp hiệp phương sai khoảng cách, ngay cả khái niệm tổng các sản phẩm của khoảng cách Euclide cũng khó khăn hơn một chút và khái niệm hiệp phương sai đối với quá trình ngẫu nhiên vượt xa những gì có thể giải thích một cách hợp lý cho khán giả như vậy .
  3. Đó là tính toán đòi hỏi nhiều hơn . Thuật toán cơ bản để tính toán thống kê kiểm tra là trong cỡ mẫu trái ngược với cho các số liệu tương quan tiêu chuẩn. Đối với kích thước mẫu nhỏ, đây không phải là vấn đề lớn, nhưng đối với những mẫu lớn hơn, nó trở nên quan trọng hơn.O ( n )O(n2)O(n)
  4. Thống kê kiểm tra không phân phối miễn phí, thậm chí không có triệu chứng . Người ta có thể hy vọng rằng với một thống kê kiểm tra phù hợp với tất cả các lựa chọn thay thế, thì phân phối, ít nhất là không có triệu chứng, có thể độc lập với các phân phối cơ bản của và theo giả thuyết null. Đây không phải là trường hợp cho hiệp phương sai khoảng cách vì phân phối dưới null phụ thuộc vào phân phối cơ bản của và ngay cả khi kích thước mẫu có xu hướng vô cùng. Đúng các bản phân phối được giới hạn thống nhất bởi phân phối , cho phép tính toán giá trị tới hạn bảo thủ .Y X Y χ 2 1XYXYχ12
  5. Mối tương quan khoảng cách là một biến đổi một-một củatrong trường hợp bình thường bivariate|ρ| . Đây không thực sự là một nhược điểm, và thậm chí có thể được xem là một thế mạnh. Nhưng, nếu người ta chấp nhận một xấp xỉ thông thường gần đúng với dữ liệu, có thể khá phổ biến trong thực tế, thì rất ít, nếu có bất cứ điều gì, có được từ việc sử dụng tương quan khoảng cách thay cho các thủ tục tiêu chuẩn.
  6. Thuộc tính năng lượng không xác định . Việc nhất quán chống lại tất cả các giải pháp thay thế về cơ bản đảm bảo rằng hiệp phương sai khoảng cách phải có sức mạnh rất thấp so với một số lựa chọn thay thế. Trong nhiều trường hợp, một người sẵn sàng từ bỏ tính tổng quát để có được sức mạnh bổ sung chống lại các lựa chọn quan tâm cụ thể. Các bài báo gốc cho thấy một số ví dụ trong đó họ yêu cầu quyền lực cao liên quan đến các số liệu tương quan tiêu chuẩn, nhưng tôi tin rằng, quay trở lại (1.) ở trên, hành vi của nó đối với các lựa chọn thay thế vẫn chưa được hiểu rõ.

Để nhắc lại, câu trả lời này có lẽ đi qua khá tiêu cực. Nhưng, đó không phải là ý định. Có một số ý tưởng rất hay và thú vị liên quan đến hiệp phương sai và sự mới lạ tương đối của nó cũng mở ra con đường nghiên cứu để hiểu nó đầy đủ hơn.

Tài liệu tham khảo :

  1. GJ Szekely và ML Rizzo (2009), hiệp phương sai khoảng cách Brown , Ann. Táo. Thống kê. , tập 3, không 4, 1236 Vang1265.
  2. GJ Szekely, ML Rizzo và NK Bakirov (2007), Đo lường và kiểm tra tính độc lập bằng sự tương quan của khoảng cách , Ann. Thống kê. , tập 35, 2769 bóng2794.
  3. R. Lyons (2012), Hiệp phương sai trong không gian hệ mét , Ann. Con mồi (xuất hiện).

Câu trả lời tuyệt vời, cảm ơn bạn. Một số trong số đó là một chút trên đầu của tôi, nhưng tôi nghĩ rằng tôi sẽ có thể tự khắc phục điều đó :)
naught101

1
Xem thêm Tóm tắt và thảo luận về: Câu lạc bộ Tạp chí Thống kê Khoảng cách của Hiệp hội Từ xa Brown, 36-825 Benjamin Cowley và Giuseppe Vinci ngày 27 tháng 10 năm 2014 stat.cmu.edu/~ryantibs/journal club / dcov.pdf
Felipe G. Nievinski

2
Khi cả hai biến ngẫu nhiên đều không tương ứng, thời gian tương quan khoảng cách có thể được tính trong thời gian , xem tandfonline.com/doi/abs/10.1080/00401706.2015.1054435 chẳng hạn. O(nlogn)
Arin Chaudhuri

3

Tôi cũng có thể thiếu một cái gì đó, nhưng chỉ cần định lượng được sự phụ thuộc phi tuyến giữa hai biến dường như không có nhiều tiền. Nó sẽ không cho bạn biết hình dạng của mối quan hệ. Nó sẽ không cung cấp cho bạn bất kỳ phương tiện để dự đoán một biến từ khác. Bằng cách tương tự, khi thực hiện phân tích dữ liệu khám phá, đôi khi người ta sử dụng đường cong hoàng thổ (phân tán trọng số cục bộ mượt mà) như bước đầu tiên để xem liệu dữ liệu được mô hình hóa tốt nhất với một đường thẳng, một bậc hai, một khối, v.v. của chính nó không phải là một công cụ dự đoán rất hữu ích. Đây chỉ là một xấp xỉ đầu tiên trên con đường tìm phương trình khả thi để mô tả hình dạng bivariate. Phương trình đó, không giống như hoàng thổ (hoặc kết quả hiệp phương sai khoảng cách), có thể tạo thành cơ sở của một mô hình xác nhận.


Đối với mục đích của tôi, nó có một khoản tiền. Tôi không sử dụng dcov () để dự đoán bất cứ điều gì, thay vào đó, so sánh nhiều chuỗi thời gian phi tuyến tính trong một tập hợp và kết hợp chúng với các trọng số dựa trên sự phụ thuộc của chúng. Trong tình huống này, dcov () có tiềm năng lợi ích lớn.
ness101

@ naught101 Bạn có thể đưa vào một số thông tin về quặng.- khi bạn nói -'combine 'không? Điều này nghe có vẻ thú vị đối với tôi về trọng số dựa trên sự phụ thuộc phi tuyến. Bạn có nghĩa là phân loại chuỗi thời gian thành các nhóm? Ngoài ra - điều gì làm trọng lượng cao và thấp nhấn mạnh trong kịch bản này?
xe tang

2
@PraneethVepakomma: kiểm tra câu trả lời của tôi tại stats.stackexchange.com/questions/562/ mẹo
naught101

1
Ngoài ra, nếu bạn biết dạng tổng quát của sự phụ thuộc (ví dụ: phương trình đa thức), thì bạn có thể định lượng độ mạnh của sự phụ thuộc bằng cách sử dụng hệ số xác định, xem, ví dụ, tính toán R2 điều chỉnh cho áp suất đa thức
Felipe G. Nievinski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.