Làm thế nào để so sánh gamma Goodman-Kruskal và Kendall tau hoặc Spearman rho?


31

Trong công việc của tôi, chúng tôi đang so sánh thứ hạng dự đoán so với thứ hạng thực cho một số bộ dữ liệu. Cho đến gần đây, chúng tôi đã sử dụng Kendall-Tau một mình. Một nhóm làm việc trong một dự án tương tự đề nghị chúng tôi cố gắng sử dụng Goodman-Kruskal Gamma thay vào đó, và họ thích nó. Tôi đã tự hỏi sự khác biệt giữa các thuật toán tương quan xếp hạng khác nhau là gì.

Câu trả lời hay nhất mà tôi tìm thấy là câu trả lời này , trong đó tuyên bố Spearman được sử dụng thay cho các mối tương quan tuyến tính thông thường, và Kendall-Tau ít trực tiếp hơn và gần giống với Goodman-Kruskal Gamma. Dữ liệu tôi đang làm việc dường như không có bất kỳ mối tương quan tuyến tính rõ ràng nào và dữ liệu bị sai lệch nhiều và không bình thường.

Ngoài ra, Spearman thường báo cáo tương quan cao hơn Kendall-Tau cho dữ liệu của chúng tôi và tôi đã tự hỏi điều gì nói về dữ liệu cụ thể. Tôi không phải là một nhà thống kê, vì vậy một số bài báo tôi đang đọc về những điều này có vẻ như là biệt ngữ đối với tôi, xin lỗi.


3
" Spearman thường báo cáo mối tương quan tốt hơn Kendall-Tau cho dữ liệu của chúng tôi và tôi đã tự hỏi điều gì nói về dữ liệu cụ thể " ... có thể không có gì; Kendall τthường gần 0 hơn Spearman ρ khi mối tương quan không thực sự gần với 0 hoặc ±1 - các biện pháp liên quan khác; thực tế là nó thường có độ lớn nhỏ hơn không có nghĩa là mối tương quan của Spearman là 'tốt hơn'; họ chỉ đang đo những thứ khác nhau về dữ liệu. Điều gì sẽ dẫn bạn nói 'tương quan tốt hơn'?
Glen_b -Reinstate Monica

1
Điều đó gián tiếp giống như câu hỏi của tôi, @Glen_b; ngoại trừ, tôi đã hỏi tại sao các thuật toán báo cáo tương quan cao hơn và điều gì sẽ gây ra điều đó. Tôi sẽ thay đổi "tốt hơn" thành "cao hơn" để làm cho ý nghĩa của tôi rõ ràng hơn một chút. Bạn đúng khi họ đo lường những thứ khác nhau và những con số không thực sự có quá nhiều liên quan đến nhau, nhưng tôi muốn biết những con số thực sự có ý nghĩa gì, được trả lời chi tiết dưới đây.
Poik

Câu trả lời:


29

Spearman rho vs Kendall tau . Hai cái này khác nhau rất nhiều về mặt tính toán đến mức bạn không thể so sánh trực tiếp độ lớn của chúng. Spearman thường cao hơn 1/4 đến 1/3 và điều này khiến người ta kết luận không chính xác rằng Spearman "tốt hơn" cho một tập dữ liệu cụ thể. Sự khác biệt giữa rho và tau là ở ý thức hệ, tỷ lệ phương sai cho rho và xác suất cho tau. Rho là một Pearson r thông thường được áp dụng cho dữ liệu được xếp hạng, và giống như r, nhạy cảm hơn với các điểm có khoảnh khắc lớn (nghĩa là độ lệch từ trung tâm đám mây) so với các điểm có khoảnh khắc nhỏ. Do đó, rho khá nhạy cảm với hình dạng của đám mây sau khi xếp hạngthực hiện: hệ số cho một đám mây hình thoi thuôn sẽ cao hơn hệ số cho một đám mây hình thuôn dài (vì các cạnh sắc nét của lần đầu tiên là những khoảnh khắc lớn). Tau là một phần mở rộng của Gamma và cũng nhạy cảm như nhau đối với tất cả các điểm dữ liệu , do đó, nó ít nhạy cảm hơn với các đặc thù về hình dạng của đám mây được xếp hạng. Tau là "chung" hơn rho, vì rho chỉ được bảo hành khi bạn tin rằng mối quan hệ cơ bản (mô hình hoặc chức năng trong dân số) giữa các biến là hoàn toàn đơn điệu. Trong khi Tau cho phép đường cong cơ bản không đơn điệu và đo lường "xu hướng" đơn điệu, tích cực hay tiêu cực, chiếm ưu thế ở đó. Rho có thể so sánh với r về độ lớn; tau thì không.

Kendall tau vai Gamma . Tau chỉ là một hình thức tiêu chuẩn của Gamma. Một số biện pháp liên quan đều có tử số nhưng khác nhau trong việc chuẩn hóa mẫu số :PQ

  • Gamma: P+Q
  • Somalia 'D ("x phụ thuộc"): P+Q+Tx
  • Somalia 'D ("y phụ thuộc"): P+Q+Ty
  • Bolog 'D ("đối xứng"): trung bình số học của hai loại trên
  • Kendall's Tau-b đúng. (thích hợp nhất cho bảng vuông): trung bình hình học của hai bảng đó
  • Kendall's Tau-c đúng. (thích hợp nhất cho bàn hình chữ nhật): N2(k1)/(2k)
  • Kendall's Tau - đúng. (thực hiện điều chỉnh n® cho các mối quan hệ): N(N1)/2=P+Q+Tx+Ty+Txy

Trong đó - số cặp quan sát có "sự phù hợp", Q - với "đảo ngược"; T x - số lượng mối quan hệ theo biến X, T y - theo biến Y, T x y - bởi cả hai biến; N - số lượng quan sát, k - số giá trị khác biệt trong biến đó trong đó số này ít hơn.PQTxTyTxyNk

Do đó, tau có thể so sánh trực tiếp về lý thuyết và cường độ với Gamma. Rho có thể so sánh trực tiếp về lý thuyết và cường độ với Pearson . Câu trả lời hay của Nick Staun ở đây cho biết làm thế nào có thể so sánh gián tiếp giữa rho và tau.r

Xem thêm về tau và rho.


14

Đây là một trích dẫn của Andrew Gilpin (1993) ủng hộ Maurice Kendall over Spearman'sτ vì những lý do lý thuyết:ρ

[Kendall ] tiếp cận một phân phối chuẩn nhanh hơn ρ , như N , kích thước mẫu, tăng; vàτρN cũng dể làm hơn về mặt toán học, đặc biệt là khi quan hệ có mặt. τ

Tôi không thể thêm nhiều về Goodman-Kruskal , trừ rằng nó dường như để sản xuất ước tính luôn cái hơi lớn hơn của Kendall τ trong một mẫu số liệu điều tra tôi đã làm việc với thời gian gần đây ... và dĩ nhiên, đáng chú ý ước tính thấp hơn Spearman ρ . Tuy nhiên, tôi cũng đã cố gắng tính toán một vài phần γ ước tính (Foraita & Sobotka, 2012), và những người ra gần gũi hơn với các phần ρ hơn một phần τ ... Phải mất một số tiền hợp lý của chế biến thời gian mặc dù, vì vậy tôi sẽ rời các bài kiểm tra mô phỏng hoặc so sánh toán học với người khác ... (người sẽ biết cách thực hiện chúng ...)γτργρτ

Như ttnphns ngụ ý, bạn không thể kết luận rằng ước tính của bạn tốt hơn τ ước tính của bạn theo độ lớn, bởi vì thang đo của chúng khác nhau (mặc dù giới hạn không). Gilpin trích dẫn Kendall (1962) khi mô tả tỷ lệρτ để τ là khoảng 1,5 so với hầu hết các loạt các giá trị. Họ tiến gần hơn dần dần khi cường độ của họ tăng lên, do đó, khi cả hai tiếp cận 1 (hoặc -1), sự khác biệt trở nên vô hạn. Gilpin đưa ra một bảng lớn tốt đẹp của các giá trị tương đương với ρ , r , r 2 ,d, và Z r ra đến chữ số thứ ba cho τρτρrr2Zrτở mọi mức tăng 0,01 trên phạm vi của nó, giống như bạn mong đợi sẽ thấy bên trong trang bìa của sách giáo khoa giới thiệu. Ông dựa trên những giá trị đó dựa trên các công thức cụ thể của Kendall, như sau: (Tôi đơn giản hóa công thức này choρtừ hình thức, trong đó Gilpin đã viết, mà là về Pearsonr.)

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

Có lẽ nó sẽ có ý nghĩa để chuyển đổi của bạn thành một ρτρ và xem cách thay đổi tính toán ảnh hưởng ước tính kích thước hiệu quả của bạn. Dường như so sánh đó sẽ đưa ra một số dấu hiệu cho thấy mức độ mà những vấn đề mà Spearman ρ là nhạy cảm hơn với có mặt trong dữ liệu của bạn, nếu ở tất cả. Nhiều phương pháp trực tiếp chắc chắn tồn tại để xác định từng vấn đề cụ thể; đề nghị của tôi sẽ tạo ra nhiều kích thước hiệu ứng omnibus nhanh và bẩn cho những vấn đề đó. Nếu không có sự khác biệt (sau khi sửa chữa cho sự khác biệt về quy mô), sau đó người ta có thể tranh luận không cần phải nhìn xa hơn cho các vấn đề mà chỉ áp dụng đối với ρ. Nếu có sự khác biệt đáng kể, thì có lẽ đã đến lúc phá vỡ ống kính phóng đại để xác định trách nhiệm.

Tôi không chắc mọi người thường báo cáo kích thước hiệu ứng như thế nào khi sử dụng Kendall (ở mức độ hạn chế đáng tiếc là mọi người lo lắng về kích thước hiệu ứng báo cáo nói chung), nhưng có vẻ như các độc giả lạ sẽ cố gắng diễn giải nó theo thang đo của Pearson r , nó có thể là khôn ngoan để báo cáo cả bạn τ thống kê và kích thước ảnh hưởng của nó trên quy mô của rτrτr bằng cách sử dụng công thức chuyển đổi trên ... hoặc ít nhất là điểm ra sự khác biệt về quy mô và đưa ra một tiếng hét ra Gilpin cho bảng chuyển đổi tiện dụng của mình .

Tài liệu tham khảo

Foraita, R., & Sobotka, F. (2012). Xác nhận các mô hình đồ họa. Gói gmvalid, v1,23. Mạng lưu trữ R toàn diện. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Bảng chuyển đổi Tau của Kendall thành Spearman's Rho trong các thước đo mức độ ảnh hưởng của phân tích tổng hợp. Đo lường giáo dục và tâm lý, 53 (1), 87-92.

Kendall, MG (1962). Xếp hạng các phương pháp tương quan (tái bản lần 3). Luân Đôn: Griffin.


9

Đây là tất cả các chỉ số tốt của hiệp hội đơn điệu. Spearman có liên quan đến khả năng đa sự phù hợp giữa ba ngẫu nhiên quan sát, và τ (Kendall) và γ (Goodman-Kruskal) có liên quan đến cặp sự phù hợp. Quyết định chính để làm trong việc lựa chọn γ vs τ là liệu bạn muốn trừng phạt đối với các mối quan hệ trong X và / hoặc Y . γ không xử phạt đối với các mối quan hệ trong một trong hai, do đó một sự so sánh về khả năng tiên đoán của X 1X 2 trong việc dự đoán Y sẽ không thưởng cho một trong những XρτγγτXYγX1X2YXs để được liên tục hơn. Sự thiếu phần thưởng này làm cho nó hơi không phù hợp với các thử nghiệm tỷ lệ khả năng dựa trên mô hình. Một ) có thể có γ cao . bị ràng buộc nặng nề (giả sử một nhị phân XXXγ


2
Frank, bạn có thể giải thích nó Spearman's ρ is related to the probability of majority concordance among random triplets of observationschi tiết hơn, không khó về mặt toán học, nếu có thể? Cảm ơn.
ttnphns

1
Tôi đọc rằng nhiều năm trước, có lẽ trong một văn bản thống kê phi tham số. Tôi đã không thể tìm thấy tài liệu tham khảo.
Frank Harrell

1
Thật không may ... :-( Bởi vì bản thân tuyên bố rất hấp dẫn.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.