Có một phiên bản của hệ số tương quan ít nhạy cảm hơn với các ngoại lệ không?


9

Hệ số tương quan là:

r= =Σk(xk-x¯)(yk-yk¯)SxSyn-1

Giá trị trung bình mẫu và độ lệch chuẩn mẫu rất nhạy cảm với các ngoại lệ.

Cơ chế cũng vậy,

r= =Σkđồ đạckn-1

cũng giống như một phương tiện và có thể có một biến thể ít nhạy cảm hơn với biến thể.

Giá trị trung bình của mẫu là:

x¯= =Σkxkn

Độ lệch chuẩn của mẫu là:

Sx= =Σk(xk-x¯)2n-1

Tôi nghĩ tôi muốn

Trung vị:

Trung bình[x]

Độ lệch tuyệt đối trung vị:

Trung bình[|x-Trung bình[x]|]

Và cho mối tương quan:

Trung bình[(x-Trung bình[x])(y-Trung bình[y])Trung bình[|x-Trung bình[x]|]Trung bình[|y-Trung bình[y]|]]

Tôi đã thử điều này với một số số ngẫu nhiên nhưng có kết quả lớn hơn 1 có vẻ sai. Xem mã R sau đây.

 x<- c(237, 241, 251, 254, 263)
 y<- c(216, 218, 227, 234, 235)

 median.x <- median(x)
 median.y <- median(y)

 mad.x <- median(abs(x - median.x))
 mad.y <- median(abs(y - median.y))

 r <- median((((x - median.x) * (y - median.y)) / (mad.x * mad.y)))

 print(r)
 ## Prints 1.125

 plot(x,y)

1
Tôi không chắc câu hỏi thực sự của bạn là gì, trừ khi bạn có nghĩa là tiêu đề của bạn? Nếu vậy, mối tương quan Spearman là mối tương quan ít nhạy cảm hơn với các ngoại lệ. Về cơ bản, nó là một mối tương quan Pearson của các cấp bậc.
Ashe

7
Bạn đang yêu cầu một công cụ ước tính mạnh mẽ về mối tương quan thông thường hoặc cho một biện pháp thay thế đồng biến thay thế xảy ra mạnh mẽ?
whuber

Một câu hỏi liên quan với câu trả lời: stats.stackexchange.com/questions/381194/ Khăn
kjetil b halvorsen

Câu trả lời:


16

Tôi nghĩ rằng bạn muốn một mối tương quan xếp hạng . Chúng thường mạnh hơn đối với các ngoại lệ, mặc dù đáng để nhận ra rằng chúng đang đo lường mối liên hệ đơn điệu, chứ không phải liên kết đường thẳng. Mối tương quan xếp hạng phổ biến nhất được biết đến là mối tương quan của Spearman . Nó chỉ là mối tương quan thời điểm sản phẩm của Pearson về thứ hạng của dữ liệu.

Tôi sẽ không đi theo con đường bạn đang đi với sự khác biệt của từng mốc thời gian từ trung vị. Trung bình của phân phối X có thể là một điểm hoàn toàn khác với trung vị phân phối của Y, ví dụ. Điều đó gây ấn tượng với tôi có thể gây ra sự mất ổn định trong tính toán.


5

Một câu trả lời khác cho các biến trái ngược với các biến liên tục , ví dụ: số nguyên so với số thực, là mối tương quan xếp hạng Kendall . Trái ngược với mối tương quan xếp hạng Spearman , mối tương quan Kendall không bị ảnh hưởng bởi khoảng cách giữa các cấp bậc khác nhau mà chỉ bởi liệu thứ hạng giữa các quan sát có bằng nhau hay không.

Hệ số Kendall được định nghĩa là:

τ= =(số lượng cặp tương ứng)-(số lượng cặp bất hòa)n(n-1)/2

Hệ số xếp hạng Kendall thường được sử dụng làm thống kê kiểm tra trong kiểm tra giả thuyết thống kê để xác định xem hai biến có thể được coi là phụ thuộc thống kê hay không. Thử nghiệm này là không tham số, vì nó không dựa trên bất kỳ giả định nào về phân phối củaX hoặc là Y hoặc phân phối (X,Y).

Tuy nhiên, việc xử lý các mối quan hệ cho mối tương quan Kendall là vấn đề được chỉ ra bởi sự tồn tại của không dưới 3 phương pháp xử lý các mối quan hệ. Một cà vạt cho một cặp {( x iy i ), ( x jy j )} là khi x i = x j hoặc y i = y j ; một cặp buộc không phải là phù hợp cũng không bất hòa.


2

Đây là một giải pháp hoạt động tốt cho dữ liệu và vấn đề được đề xuất bởi IrishStat.

Y=ax+b+e

Ý tưởng là để thay thế phương sai mẫu của Y bởi phương sai dự đoán

σY2=a2σx2+σe2
. để công thức cho sự tương quan trở thành
r= =một2σx2một2σx2+σe2
Bây giờ lý do mà sự tương quan bị đánh giá thấp là vì các ngoại lệ gây ra ước tính cho σe2bị thổi phồng. Để giải quyết vấn đề này, thay thế giả định về các lỗi phân phối thông thường trong hồi quy bằng hỗn hợp thông thường
0,952πσđiểm kinh nghiệm(-e22σ2)+0,052π3σđiểm kinh nghiệm(-e218σ2)
Lần đầu tiên tôi thấy bản phân phối này được sử dụng cho sự mạnh mẽ trong cuốn sách Hubers, Robust Statistics. Đây là "vừa phải" mạnh mẽ và hoạt động tốt cho ví dụ này. Nó cũng có một đặc tính là nếu không có ngoại lệ, nó tạo ra các ước tính tham số gần như giống hệt với các bình phương nhỏ nhất thông thường. Vì vậy, thủ tục này hoàn toàn loại bỏ ảnh hưởng của ngoại lệ mà không phải sửa đổi dữ liệu. Lắp dữ liệu tạo ra ước tính tương quan là 0,944812.

.94 của bạn không chính xác gần với .94 Tôi đã tính khi tôi đảo ngược y và x. Đây có phải là tình cờ?
IrishStat

Tôi nghĩ rằng đó chỉ là tình cờ.
dave Fournier

1

Câu trả lời của tôi cho thấy OP không biết những quan sát nào là ngoại lệ bởi vì nếu OP đã làm thì điều chỉnh dữ liệu sẽ là hiển nhiên. Do đó, một phần câu trả lời của tôi liên quan đến việc xác định (các) ngoại lệ

Khi bạn xây dựng mô hình OLS (y đấu với x), bạn có được một hệ số hồi quy và sau đó là hệ số tương quan Tôi nghĩ rằng nó có thể nguy hiểm nếu không thách thức các "givens". Theo cách này, bạn hiểu rằng hệ số hồi quy và anh chị em của nó được đặt ra không có giá trị ngoại lệ / giá trị bất thường. Bây giờ nếu bạn xác định một ngoại lệ và thêm một yếu tố dự đoán 0/1 thích hợp vào mô hình hồi quy của bạn thì hệ số hồi quy tổng hợp choxbây giờ được củng cố để ngoại lệ / dị thường. Hệ số hồi quy này choxsau đó là "truer" hơn hệ số hồi quy ban đầu vì nó không bị ảnh hưởng bởi các ngoại lệ được xác định. Lưu ý rằng không có quan sát nào bị "vứt bỏ" vĩnh viễn; nó chỉ là một sự điều chỉnh choygiá trị là ẩn cho điểm bất thường. Hệ số mới này chox sau đó có thể được chuyển đổi thành mạnh mẽ r.

Một cái nhìn khác về điều này chỉ là để điều chỉnh y giá trị và thay thế bản gốc y giá trị với "giá trị được làm mịn" này và sau đó chạy một tương quan đơn giản.

Quá trình này sẽ phải được thực hiện lặp đi lặp lại cho đến khi không tìm thấy ngoại lệ.

Tôi hy vọng việc làm rõ này sẽ giúp những người bỏ phiếu hiểu được thủ tục đề xuất. Cảm ơn whuber đã đẩy tôi để làm rõ. Nếu bất cứ ai vẫn cần giúp đỡ với điều này luôn có thể mô phỏng mộty,x tập dữ liệu và đưa ra một ngoại lệ tại bất kỳ x cụ thể nào và làm theo các bước được đề xuất để có được ước tính tốt hơn về r.

Tôi hoan nghênh bất kỳ ý kiến ​​về điều này như thể nó là "không chính xác" Tôi thực sự muốn biết lý do tại sao hy vọng được hỗ trợ bởi một ví dụ ngược số.

EDITED ĐỂ HIỆN TẠI MỘT VÍ DỤ ĐƠN GIẢN:

Một ví dụ nhỏ sẽ đủ để minh họa cho phương pháp được đề xuất / minh bạch của việc có được một phiên bản r ít nhạy cảm hơn với các ngoại lệ, đó là câu hỏi trực tiếp của OP. Đây là một kịch bản dễ theo dõi bằng cách sử dụng ols tiêu chuẩn và một số số học đơn giản. Nhớ lại rằng B hệ số hồi quy ols bằng r * [sigmay / sigmax).

Hãy xem xét 10 cặp quan sát sau đây.

nhập mô tả hình ảnh ở đây

Và đồ họa

nhập mô tả hình ảnh ở đây

Hệ số tương quan đơn giản là 0,75 với sigmay = 18,41 và sigmax = .38

Bây giờ chúng ta tính toán hồi quy giữa y và x và thu được các giá trị sau

nhập mô tả hình ảnh ở đây

Trong đó 36,538 = .75 * [18,41 / .38] = r * [sigmay / sigmax]

Bảng thực tế / phù hợp cho thấy ước tính ban đầu về một ngoại lệ tại quan sát 5 với giá trị 32.799. nhập mô tả hình ảnh ở đây

Nếu chúng tôi loại trừ điểm thứ 5, chúng tôi có được kết quả hồi quy sau

nhập mô tả hình ảnh ở đây

Điều này mang lại một dự đoán là 173,31 bằng cách sử dụng giá trị x 13,61. Dự đoán này sau đó cho thấy một ước tính tinh tế của ngoại lệ như sau; 209-173.31 = 35,69.

Nếu bây giờ chúng tôi khôi phục 10 giá trị ban đầu nhưng thay thế giá trị của y ở giai đoạn 5 (209) bằng giá trị ước tính / đã xóa 173.31, chúng tôi có được nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Tính lại r chúng ta nhận được giá trị .98 từ phương trình hồi quy

r = B * [sigmax / sigmay] .98 = [37.4792] * [.38 / 14.71]

Do đó, bây giờ chúng ta có một phiên bản hoặc r (r = .98) ít nhạy cảm hơn với một ngoại lệ được xác định tại quan sát 5. Lưu ý rằng sigmay được sử dụng ở trên (14.71) dựa trên y đã điều chỉnh ở giai đoạn 5 và không phải là sigmay bị ô nhiễm ban đầu (18.41). Ảnh hưởng của ngoại lệ là lớn do kích thước ước tính và kích thước mẫu. Những gì chúng tôi đã có là 9 cặp bài đọc (1-4; 6-10) có mối tương quan cao nhưng tiêu chuẩn r bị che khuất / bị bóp méo bởi ngoại lệ ở mức 5.

Có một cách tiếp cận powerfiul ít minh bạch hơn để giải quyết vấn đề này và đó là sử dụng thủ tục TSAY http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html để tìm kiếm và giải quyết bất kỳ và tất cả các ngoại lệ trong một lần. Ví dụ nhập mô tả hình ảnh ở đây, các giá trị ngoại lệ là 36,4481 do đó giá trị được điều chỉnh (một phía) là 172,5419. Đầu ra tương tự sẽ tạo ra một biểu đồ hoặc bảng thực tế / được làm sạch.nhập mô tả hình ảnh ở đây. Quy trình của Tsay thực sự iterat khóa kiểm tra từng điểm cho "tầm quan trọng thống kê" và sau đó chọn điểm tốt nhất cần điều chỉnh. Các giải pháp chuỗi thời gian được áp dụng ngay lập tức nếu không có cấu trúc thời gian rõ ràng hoặc có khả năng được giả định trong dữ liệu. Những gì tôi đã làm là thay thế sự kết hợp của bất kỳ bộ lọc chuỗi thời gian nào vì tôi có kiến ​​thức về miền / "biết" rằng nó đã được ghi lại theo cách thức dọc ienon cắt ngang.


1
Mối tương quan có liên quan gì đến chuỗi thời gian, "xung", "dịch chuyển cấp độ" và "xung theo mùa"?
whuber

4
Vì thời gian không liên quan đến hồi quy nói chung, thậm chí một thứ đơn giản như hệ số tự tương quan thậm chí không được xác định. Bạn không thể làm cho mọi vấn đề thống kê trông giống như một phân tích chuỗi thời gian!
whuber

4
@Engr Tôi sợ câu trả lời này đặt ra câu hỏi. Nó có một số vấn đề, trong đó lớn nhất là nó không cung cấp quy trình nào để xác định "ngoại lệ". Một điều nữa là đề xuất lặp lại thủ tục không hợp lệ - đối với nhiều quy trình phát hiện ngoại lệ, nó sẽ giảm tập dữ liệu xuống chỉ còn một cặp điểm.
whuber

4
Tôi sợ rằng đề xuất hiện tại vốn đã nguy hiểm, đặc biệt là đối với người dùng ngây thơ hoặc thiếu kinh nghiệm, vì ít nhất các lý do sau đây (1) làm thế nào để xác định các ngoại lệ một cách khách quan (2) kết quả có thể là các mô hình quá phức tạp dựa trên các quyết định đột xuất (3) thủ tục có thể không hội tụ, hoặc không hội tụ độc đáo. Người mới bắt đầu thường xác định quá mức các ngoại lệ và sử dụng quá ít các phép biến đổi và / hoặc các hàm liên kết không nhận dạng như các cách thuần hóa chúng.
Nick Cox

3
Không có ý định xúc phạm, @Carl, nhưng bạn đang có tâm trạng muốn nổi giận, còn tôi thì không và tôi đang cố gắng thảnh thơi ở đây. Nếu nó là cách khác, và nó có thể, tôi không ngạc nhiên nếu mọi người bỏ qua tôi. Nếu tôi dường như ngụ ý rằng sự biến đổi giải quyết tất cả các vấn đề, thì hãy yên tâm rằng tôi không có ý đó.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.