So sánh danh sách xếp hạng


15

Giả sử rằng hai nhóm, bao gồm n 2n1n2 mỗi xếp hạng một bộ gồm 25 mục từ quan trọng nhất đến quan trọng nhất. Những cách tốt nhất để so sánh các bảng xếp hạng là gì?

Rõ ràng, có thể thực hiện 25 bài kiểm tra Mann-Whitney U, nhưng điều này sẽ dẫn đến 25 kết quả kiểm tra để giải thích, có thể quá nhiều (và, trong sử dụng nghiêm ngặt, đưa ra các câu hỏi của nhiều so sánh). Tôi cũng không hoàn toàn rõ ràng rằng các cấp bậc đáp ứng tất cả các giả định của bài kiểm tra này.

Tôi cũng sẽ quan tâm đến con trỏ đến văn học về xếp hạng so với xếp hạng.

Một số bối cảnh: 25 mục này đều liên quan đến giáo dục và hai nhóm là các loại nhà giáo dục khác nhau. Cả hai nhóm đều nhỏ.

EDIT để đáp lại @ttnphns:

Tôi không có ý so sánh tổng thứ hạng của các mục trong nhóm 1 với nhóm 2 - đó sẽ là một hằng số, như @ttnphns chỉ ra. Nhưng thứ hạng trong nhóm 1 và nhóm 2 sẽ khác nhau; nghĩa là, nhóm 1 có thể xếp hạng mục 1 cao hơn nhóm 2.

Tôi có thể so sánh chúng, từng mục, nhận thứ hạng trung bình hoặc trung bình của mỗi mục và thực hiện 25 bài kiểm tra, nhưng tôi tự hỏi liệu có cách nào tốt hơn để làm điều này không.


1
Nếu mỗi người xếp hạng 25 mục so với tổng trên 25 biến là một hằng số (325). Cho rằng, những gì bạn có nghĩa là nói the best ways to compare these rankings- những gì loại của sự khác biệt bw 2 nhóm bạn muốn biết?
ttnphns

2
Có lẽ để tính Median của Kemen cho mỗi nhóm? Tôi đã không tự mình làm điều đó và không biết liệu 2 kết quả có thể được so sánh với thống kê hay không (nghĩa là với sự suy luận về dân số).
ttnphns

1
Một lựa chọn khác có thể được lặp đi lặp lại các biện pháp hồi quy thứ tự (trong đó tương tác bw yếu tố nhóm và yếu tố rm sẽ là mối quan hệ của bạn); điều này có thể được thực hiện thông qua mô hình GEE với phân phối đa liên kết và liên kết logit. Nhưng, một lần nữa, vì tổng số trên 25 mục là một hằng số, tôi không thể nói bây giờ nếu nó có giá trị về mặt toán học.
ttnphns

2
Tôi không có cuốn sách này cho tôi, nhưng "Lý thuyết và thực hành đo lường" của D Hand thảo luận về một số vấn đề nghe có vẻ tương tự như thế này. Điều gì đặc biệt bạn muốn biết về "sự khác biệt" trong xếp hạng. Ví dụ: trước tiên bạn có thể không tạo một xếp hạng tổng hợp cho mỗi nhóm và sau đó lấy tương quan xếp hạng không?
Corone

2
@PeterFlom Cuối cùng bạn đã tìm thấy một giải pháp để so sánh thứ hạng chưa? Nếu có, bạn có phiền để đăng nó không? :)
Mark Heckmann

Câu trả lời:


6

Tóm lược

Tôi chia sẻ suy nghĩ của tôi trong phần Chi tiết . Tôi nghĩ rằng chúng rất hữu ích trong việc xác định những gì chúng ta thực sự muốn đạt được.

Tôi nghĩ rằng vấn đề chính ở đây là bạn chưa xác định được sự tương đồng về thứ hạng nghĩa là gì. Do đó, không ai biết phương pháp đo lường sự khác biệt giữa các cấp bậc là tốt hơn.

Hiệu quả, điều này khiến chúng ta mơ hồ chọn một phương pháp dựa trên phỏng đoán.

Những gì tôi thực sự đề nghị là đầu tiên xác định một mục tiêu tối ưu hóa toán học. Chỉ sau đó chúng tôi sẽ chắc chắn liệu chúng tôi thực sự biết những gì chúng tôi muốn.

Trừ khi chúng ta làm điều đó, thực sự không biết những gì chúng ta muốn. Chúng ta có thể gần như biết những gì chúng ta muốn, nhưng hầu như biết biết .

Văn bản của tôi trong Chi tiết về cơ bản là một bước để đạt đến một định nghĩa toán học về sự tương đồng về cấp bậc . Một khi chúng ta hiểu điều này, chúng ta có thể tự tin tiến về phía trước để chọn phương pháp tốt nhất để đo lường sự tương đồng như vậy.

Chi tiết

Dựa trên một trong những bình luận của bạn:

  • " Mục tiêu là để xem thứ hạng của hai nhóm có khác nhau không ", Peter Flom.

Để trả lời điều này trong khi diễn giải đúng mục tiêu:

  • Các cấp bậc khác nhau nếu, bất kỳ mục nào , tồn tại i sao cho a ib i , trong đó a i là thứ hạng của mục i theo nhóm ab i là thứ hạng của cùng một mặt hàng nhưng theo nhóm b .i{1,2,,25}iaibiaiiabib
  • Khác, hàng ngũ không khác nhau.

Nhưng tôi không nghĩ rằng bạn thực sự muốn giải thích chặt chẽ . Do đó, tôi nghĩ điều bạn thực sự muốn nói là:

  • Làm thế nào khác nhau là thứ hạng của nhóm b ?ab

ab .

n13ab3 .

Nhưng phương pháp này có phù hợp không? Để trả lời điều này, chúng ta hãy nhìn sâu hơn một chút:

  • a,b3c,d123a,bc,dc,d

  • Nó giả định rằng chi phí của mỗi lần chỉnh sửa là tuyến tính đối với số bước nhảy. Điều này có đúng với miền ứng dụng của chúng tôi không? Có thể là một mối quan hệ logistic là phù hợp hơn? Hoặc một số mũ ?

  • 15

Khi chúng tôi giải quyết các điểm trên và đạt được một mức độ tương tự phù hợp giữa hai cấp bậc, chúng tôi sẽ cần phải hỏi những câu hỏi thú vị hơn, chẳng hạn như:

  • ab

5

Điều này nghe có vẻ như 'Bài kiểm tra xếp hạng có chữ ký của Willcoxon' ( liên kết wikipedia ). Giả sử rằng các giá trị của các cấp bậc của bạn là từ cùng một bộ (nghĩa là[1, 25] ) thì đây là một thử nghiệm khác biệt theo cặp (với giả thuyết null là các cặp này được chọn ngẫu nhiên). NB đây là một điểm không tương đồng!

Có cả hai Rvà các Pythontriển khai được liên kết đến trong trang wiki đó.


Hấp dẫn. Tôi đã không nghe nói về một sự khác biệt cặp Wilcoxon.
Peter Flom - Tái lập Monica

3

Cảnh báo: đó là một câu hỏi hay và tôi không biết câu trả lời, vì vậy đây thực sự là một "điều tôi sẽ làm nếu phải":

Trong vấn đề này, có rất nhiều mức độ tự do và rất nhiều so sánh người ta có thể làm, nhưng với dữ liệu hạn chế, đó thực sự là vấn đề tổng hợp dữ liệu hiệu quả. Nếu bạn không biết chạy thử nghiệm gì, bạn luôn có thể "phát minh" thử nghiệm bằng cách sử dụng hoán vị:

Đầu tiên chúng ta định nghĩa hai hàm:

  • Chức năng bỏ phiếu : làm thế nào để ghi điểm thứ hạng để chúng tôi có thể kết hợp tất cả các bảng xếp hạng của một nhóm duy nhất. Ví dụ: bạn có thể gán 1 điểm cho mục được xếp hạng cao nhất và 0 cho tất cả những mục khác. Tuy nhiên, bạn sẽ mất rất nhiều thông tin, vì vậy có lẽ tốt hơn là sử dụng một cái gì đó như: mục được xếp hạng hàng đầu được 1 điểm, thứ hai được xếp hạng 2 điểm, v.v.

  • Chức năng so sánh : Cách so sánh hai điểm tổng hợp giữa hai nhóm. Vì cả hai sẽ là một vectơ, lấy một định mức phù hợp của sự khác biệt sẽ hoạt động.

Bây giờ làm như sau:

  1. Trước tiên, tính toán một thống kê kiểm tra bằng cách tính điểm trung bình bằng cách sử dụng chức năng bỏ phiếu cho mỗi mục trong hai nhóm, điều này sẽ dẫn đến hai vectơ có kích thước 25.
  2. Sau đó so sánh hai kết quả bằng cách sử dụng chức năng so sánh, đây sẽ là thống kê kiểm tra của bạn.

Vấn đề là chúng ta không biết phân phối thống kê kiểm tra theo null mà cả hai nhóm đều giống nhau. Nhưng nếu chúng giống nhau, chúng ta có thể ngẫu nhiên xáo trộn các quan sát giữa các nhóm.

n1

Lặp lại quy trình khoảng 1000 lần và bây giờ sử dụng thống kê kiểm tra hoán vị làm phân phối null theo kinh nghiệm. Điều này sẽ cho phép bạn tính toán giá trị p và đừng quên tạo một biểu đồ đẹp và vẽ một đường thẳng cho thống kê kiểm tra của bạn như sau:

kiểm tra hoán vị biểu đồ l1

l1l1l2

kiểm tra hoán vị biểu đồ l2

Nhưng tùy thuộc vào cài đặt, tôi hy vọng có thể có rất nhiều tính ngẫu nhiên nội tại và bạn sẽ cần một cỡ mẫu khá lớn để có một phương pháp bắt tất cả. Nếu bạn có kiến ​​thức trước về những điều cụ thể mà bạn nghĩ có thể khác nhau giữa hai nhóm (nói các mục cụ thể), thì hãy sử dụng điều đó để điều chỉnh hai chức năng của bạn. (Tất nhiên, thông thường làm điều này trước khi bạn chạy thử nghiệm và không thiết kế chọn anh đào cho đến khi bạn nhận được một cái gì đó quan trọng áp dụng)

PS bắn cho tôi một tin nhắn nếu bạn quan tâm đến mã (lộn xộn) của tôi. Quá lâu để thêm vào đây nhưng tôi rất vui khi tải nó lên.


Tôi thực sự thích ý tưởng này.
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.