Cohen's kappa bằng tiếng Anh


131

Tôi đang đọc một cuốn sách khai thác dữ liệu và nó đã đề cập đến thống kê Kappa như một phương tiện để đánh giá hiệu suất dự đoán của các phân loại. Tuy nhiên, tôi không thể hiểu điều này. Tôi cũng đã kiểm tra Wikipedia nhưng nó cũng không giúp được gì: https://en.wikipedia.org/wiki/Cohen's_kappa .

Làm thế nào để kappa của Cohen giúp đánh giá hiệu suất dự đoán của các phân loại? Nó nói lên điều gì?

Tôi hiểu rằng 100% kappa có nghĩa là bộ phân loại hoàn toàn đồng ý với bộ phân loại ngẫu nhiên, nhưng tôi không hiểu làm thế nào điều này giúp đánh giá hiệu suất của bộ phân loại?

40% kappa có nghĩa là gì? Có nghĩa là 40% thời gian, bộ phân loại phù hợp với phân loại ngẫu nhiên? Nếu vậy, điều đó cho tôi biết hoặc giúp tôi trong việc đánh giá phân loại?

Câu trả lời:


226

Giới thiệu

Thống kê Kappa (hoặc giá trị) là một số liệu so sánh Độ chính xác được quan sát với Độ chính xác dự kiến (cơ hội ngẫu nhiên). Thống kê kappa được sử dụng không chỉ để đánh giá một bộ phân loại duy nhất, mà còn để đánh giá các bộ phân loại giữa chúng. Ngoài ra, nó tính đến cơ hội ngẫu nhiên (thỏa thuận với phân loại ngẫu nhiên), điều này thường có nghĩa là nó ít gây hiểu lầm hơn là chỉ sử dụng độ chính xác như một thước đo ( Độ chính xác quan sát là 80% ít ấn tượng hơn với Độ chính xác dự kiến là 75% so với độ chính xác dự kiến là 50%). Tính toán độ chính xác quan sát và độ chính xác dự kiếnlà không thể thiếu để hiểu được thống kê kappa, và dễ dàng được minh họa nhất thông qua việc sử dụng ma trận nhầm lẫn. Hãy bắt đầu với một ma trận nhầm lẫn đơn giản từ một phân loại nhị phân đơn giản của MèoChó :

Tính toán

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

Giả sử rằng một mô hình được xây dựng bằng cách sử dụng máy học có giám sát trên dữ liệu được dán nhãn. Điều này không phải luôn luôn là trường hợp; thống kê kappa thường được sử dụng như một thước đo độ tin cậy giữa hai con người. Bất kể, các cột tương ứng với một "rater" trong khi các hàng tương ứng với một "rater" khác. Trong học máy có giám sát, một "người đánh giá" phản ánh sự thật cơ bản (giá trị thực tế của từng trường hợp được phân loại), thu được từ dữ liệu được gắn nhãn và "người đánh giá" khác là trình phân loại học máy được sử dụng để thực hiện phân loại. Cuối cùng, việc tính toán thống kê kappa là không quan trọng, nhưng cho rõ ràng ' phân loại.

Từ ma trận nhầm lẫn, chúng ta có thể thấy có tổng cộng 30 trường hợp (10 + 7 + 5 + 8 = 30). Theo cột 15 đầu tiên được dán nhãn là Mèo (10 + 5 = 15) và theo cột thứ hai, 15 được dán nhãn là Chó (7 + 8 = 15). Chúng ta cũng có thể thấy rằng mô hình đã phân loại 17 trường hợp là Mèo (10 + 7 = 17) và 13 trường hợp là Chó (5 + 8 = 13).

Độ chính xác được quan sát chỉ đơn giản là số lượng các trường hợp được phân loại chính xác trong toàn bộ ma trận nhầm lẫn, tức là số lượng các trường hợp được gắn nhãn là Mèo thông qua sự thật mặt đất và sau đó được phân loại là Mèo theo phân loại học máy hoặc được gắn nhãn là Chó thông qua sự thật mặt đất và sau đó được phân loại là Chó theo phân loại học máy . Để tính toán Độ chính xác quan sát , chúng tôi chỉ cần thêm số lượng phiên bản mà trình phân loại học máy đã đồng ý với sự thật cơ bảnnhãn và chia cho tổng số trường hợp. Đối với ma trận nhầm lẫn này, đây sẽ là 0,6 ((10 + 8) / 30 = 0,6).

Trước khi chúng ta có được phương trình cho thống kê kappa, cần thêm một giá trị: Độ chính xác dự kiến . Giá trị này được định nghĩa là độ chính xác mà bất kỳ phân loại ngẫu nhiên nào cũng sẽ đạt được dựa trên ma trận nhầm lẫn. Các chính xác mong đợi có liên quan trực tiếp đến số lượng các trường hợp của mỗi lớp ( MèoChó ), cùng với số lượng các trường hợp mà phân loại học máy thống nhất với thực địa nhãn. Để tính Độ chính xác dự kiến cho ma trận nhầm lẫn của chúng tôi, trước tiên, hãy nhân tần số biên của Mèo cho một "tỷ lệ" với tần số biên củaMèo cho "người đánh giá" thứ hai, và chia cho tổng số trường hợp. Các tần số biên cho một lớp nhất định bởi một "Rater" nhất định chỉ là tổng của tất cả các trường hợp các "Rater" chỉ là lớp đó. Trong trường hợp của chúng tôi, 15 (10 + 5 = 15) trường hợp được gắn nhãn là Mèo theo sự thật cơ bản17 (10 + 7 = 17) được phân loại là Mèo theo phân loại học máy . Điều này dẫn đến giá trị là 8,5 (15 * 17/30 = 8,5). Điều này sau đó cũng được thực hiện cho lớp thứ hai (và có thể được lặp lại cho mỗi lớp bổ sung nếu có nhiều hơn 2). 15(7 + 8 = 15) trường hợp được gắn nhãn là Chó theo sự thật cơ bản13 (8 + 5 = 13) trường hợp được phân loại là Chó theo phân loại học máy . Điều này dẫn đến giá trị là 6,5 (15 * 13/30 = 6,5). Bước cuối cùng là cộng tất cả các giá trị này lại với nhau và cuối cùng chia lại cho tổng số trường hợp, dẫn đến Độ chính xác dự kiến0,5 ((8,5 + 6,5) / 30 = 0,5). Trong ví dụ của chúng tôi, Độ chính xác dự kiến hóa ra là 50%, như mọi khi "người đánh giá" sẽ phân loại mỗi lớp có cùng tần số trong một phân loại nhị phân (cả hai con MèoChó chứa 15 trường hợp theo nhãn sự thật mặt đất trong ma trận nhầm lẫn của chúng tôi).

Thống kê kappa sau đó có thể được tính bằng cả Độ chính xác quan sát ( 0,60 ) và Độ chính xác dự kiến ( 0,50 ) và công thức:

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

Vì vậy, trong trường hợp của chúng tôi, thống kê kappa bằng: (0,60 - 0,50) / (1 - 0,50) = 0,20.

Một ví dụ khác, đây là một ma trận nhầm lẫn ít cân bằng hơn và các tính toán tương ứng:

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

Sự thật cơ bản: Mèo (29), Chó (22)
Phân loại học máy: Mèo (31), Chó (20)
Tổng cộng: (51)
Độ chính xác quan sát: ((22 + 13) / 51) = 0,69
Độ chính xác dự kiến: ((29 * 31/51) + (22 * 20/51)) / 51 = 0,51
Kappa: (0,69 - 0,51) / (1 - 0,51) = 0,37

Về bản chất, thống kê kappa là thước đo mức độ chặt chẽ của các trường hợp được phân loại bởi phân loại học máy khớp với dữ liệu được dán nhãn là sự thật mặt đất , kiểm soát độ chính xác của phân loại ngẫu nhiên được đo bằng độ chính xác dự kiến. Thống kê kappa này không chỉ có thể làm sáng tỏ cách thức phân loại chính nó, thống kê kappa cho một mô hình có thể so sánh trực tiếp với thống kê kappa cho bất kỳ mô hình nào khác được sử dụng cho cùng một nhiệm vụ phân loại.

Diễn dịch

Không có một cách giải thích tiêu chuẩn của thống kê kappa. Theo Wikipedia (trích dẫn bài báo của họ), Landis và Koch coi 0-0,20 là nhẹ, 0,21-0,40 là công bằng, 0,41-0,60 là vừa phải, 0,61-0,80 là đáng kể và 0,81-1 là gần như hoàn hảo. Fleiss coi kappas> 0,75 là xuất sắc, 0,40-0,75 là công bằng cho tốt và <0,40 là nghèo. Điều quan trọng cần lưu ý là cả hai thang đo đều có phần tùy ý. Ít nhất hai sự cân nhắc thêm nên được tính đến khi giải thích thống kê kappa. Đầu tiên, thống kê kappa phải luôn được so sánh với ma trận nhầm lẫn đi kèm nếu có thể để có được sự giải thích chính xác nhất. Hãy xem xét ma trận nhầm lẫn sau đây:

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

Thống kê kappa là 0,47, cao hơn ngưỡng trung bình theo Landis và Koch và công bằng cho Fleiss. Tuy nhiên, hãy chú ý tỷ lệ trúng để phân loại Mèo . Chưa đến một phần ba số Mèo thực sự được phân loại là Mèo ; phần còn lại đều được phân loại là Chó . Nếu chúng ta quan tâm nhiều hơn đến việc phân loại Mèo một cách chính xác (giả sử, chúng ta dị ứng với Mèo nhưng không phải với Chó và tất cả những gì chúng ta quan tâm không phải là chống lại dị ứng thay vì tối đa hóa số lượng động vật chúng ta nuôi), thì phân loại có mức thấp hơn kappa nhưng tỷ lệ phân loại tốt hơn Mèo có thể lý tưởng hơn.

Thứ hai, giá trị thống kê kappa chấp nhận được khác nhau trên bối cảnh. Ví dụ, trong nhiều nghiên cứu độ tin cậy giữa các nhà nghiên cứu với các hành vi dễ quan sát, giá trị thống kê kappa dưới 0,70 có thể được coi là thấp. Tuy nhiên, trong các nghiên cứu sử dụng học máy để khám phá các hiện tượng không thể quan sát được như các trạng thái nhận thức như mơ mộng ban ngày, các giá trị thống kê kappa trên 0,40 có thể được coi là ngoại lệ.

Vì vậy, để trả lời câu hỏi của bạn về 0,40 kappa, điều đó phụ thuộc. Nếu không có gì khác, điều đó có nghĩa là bộ phân loại đã đạt được tỷ lệ phân loại 2/5 giữa mức độ chính xác dự kiến ​​và độ chính xác 100%. Nếu độ chính xác dự kiến ​​là 80%, điều đó có nghĩa là bộ phân loại thực hiện 40% (vì kappa là 0,4) là 20% (vì đây là khoảng cách giữa 80% và 100%) trên 80% (vì đây là kappa bằng 0, hoặc cơ hội ngẫu nhiên), hoặc 88%. Vì vậy, trong trường hợp đó, mỗi lần tăng kappa là 0,10 cho thấy mức tăng chính xác của phân loại là 2%. Nếu độ chính xác thay vì 50%, thì kappa là 0,4 có nghĩa là bộ phân loại được thực hiện với độ chính xác là 40% (kappa là 0,4) là 50% (khoảng cách giữa 50% và 100%) lớn hơn 50% (vì đây là kappa bằng 0, hoặc cơ hội ngẫu nhiên), hoặc 70%. Một lần nữa, trong trường hợp này có nghĩa là sự gia tăng kappa bằng 0.

Các trình phân loại được xây dựng và đánh giá trên các tập dữ liệu của các bản phân phối lớp khác nhau có thể được so sánh đáng tin cậy hơn thông qua thống kê kappa (trái ngược với chỉ sử dụng độ chính xác) do tỷ lệ này liên quan đến độ chính xác dự kiến. Nó đưa ra một chỉ báo tốt hơn về cách trình phân loại thực hiện trong tất cả các trường hợp, bởi vì độ chính xác đơn giản có thể bị sai lệch nếu phân phối lớp bị lệch tương tự. Như đã đề cập trước đó, độ chính xác 80% ấn tượng hơn rất nhiều với độ chính xác dự kiến ​​là 50% so với độ chính xác dự kiến ​​là 75%. Độ chính xác dự kiến ​​như chi tiết ở trên dễ bị phân phối lớp lệch, do đó, bằng cách kiểm soát độ chính xác dự kiến ​​thông qua thống kê kappa, chúng tôi cho phép các mô hình phân phối lớp khác nhau dễ dàng được so sánh hơn.

Đó là tất cả những gì tôi có. Nếu bất cứ ai nhận thấy bất cứ điều gì còn sót lại, bất cứ điều gì không chính xác, hoặc nếu bất cứ điều gì vẫn chưa rõ ràng, xin vui lòng cho tôi biết để tôi có thể cải thiện câu trả lời.

Tài liệu tham khảo tôi thấy hữu ích:

Bao gồm một mô tả ngắn gọn về kappa: http : // st Chuẩnwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

Bao gồm mô tả tính toán độ chính xác dự kiến: http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
Thêm một số nền tảng về lý do tại sao tần số dự kiến ​​của một ô bằng với hàng * colsum / N, vì đây là phiên bản rút gọn và không rõ ràng ngay từ đầu tại sao phương trình giữ. Điều này cũng được sử dụng trong thử nghiệm Chi-Square: en.wikipedia.org/wiki/ Từ
Zhubarb

2
đây là một câu trả lời tuyệt vời nhưng tôi tự hỏi liệu bạn có thể làm sáng tỏ thêm (hoặc các liên kết!) về cách một lớp rất chi phối có thể ảnh hưởng đến việc giải thích kappa. Ví dụ: tôi có một ma trận conf gồm 7 lớp che phủ đất và một trong số chúng chiếm ưu thế (~ 70% tất cả dữ liệu). Tôi đoán đây là 'tưới xuống' lỗi tổng thể?
Sam

2
Chỉ là một nhận xét ngẫu nhiên: mô tả của bạn rõ ràng hơn nhiều so với trang Wikipedia :)
R.Falque

1
Đối với độ chính xác dự kiến, lưu ý rằng có thể đơn giản hơn khi nghĩ như sau: (15/30) là tỷ lệ dự kiến ​​của số lần "sự thật mặt đất" phân loại thứ gì đó của một con mèo và (15/30) là tỷ lệ dự kiến ​​của số lần "sự thật mặt đất" phân loại một cái gì đó một con chó. Tương tự như vậy, đối với phân loại ML (17/30) mèo tỷ lệ dự kiến, (13/30) chó tỷ lệ dự kiến. Giả sử các trình phân loại không tương thích, sau đó chúng ta có tỷ lệ phần trăm các trình phân loại thời gian đồng ý theo cơ hội là (15/30) * (17/30) + (15/30) * (13/30) = .5 (họ đồng ý và phân loại là chó hoặc như mèo). Do đó, 0,5 của thỏa thuận thời gian là tình cờ.
ClownInTheMoon

1
Vâng, chắc chắn so sánh các chú thích là ý định ban đầu, chắc chắn. Tuy nhiên, lịch sử khoa học tràn ngập các trường hợp trong đó một số công thức hoặc một công thức khác đã nhảy ra khỏi bể sinh sản của nó sang một nơi khác, và làm cho thế giới trở thành một nơi tốt đẹp hơn. Điều đó đang được nói, có lẽ có số liệu tốt hơn để sử dụng tùy thuộc vào trường hợp của bạn. Bạn nên hiểu điểm mạnh và điểm yếu của số liệu ứng viên trước khi đưa ra quyết định cuối cùng. AUPRC có thể là một phương pháp tốt hơn cho một số trường hợp, ví dụ.
rbx

14

rbx có một câu trả lời tuyệt vời Tuy nhiên, nó là một chút dài dòng. Dưới đây là tóm tắt và trực giác của tôi đằng sau số liệu Kappa.


Kappa là một thước đo quan trọng về hiệu suất phân loại, đặc biệt là trên tập dữ liệu mất cân bằng .

Ví dụ, trong phát hiện gian lận thẻ tín dụng, phân phối biên của biến phản hồi bị sai lệch cao, rằng sử dụng độ chính xác làm thước đo sẽ không hữu ích. Nói cách khác, đối với ví dụ phát hiện gian lận nhất định, 99,9% giao dịch sẽ là giao dịch không gian lận. Chúng tôi có thể có một bộ phân loại tầm thường luôn nói không gian lận cho mọi giao dịch và chúng tôi vẫn sẽ có 99,9% độ chính xác.

Mặt khác, Kappa sẽ "khắc phục" vấn đề này bằng cách xem xét phân phối biên của biến trả lời . Sử dụng Kappa, bộ phân loại tầm thường đã nói ở trên sẽ có một Kappa rất nhỏ.

Nói một cách dễ hiểu, nó đo lường mức độ tốt hơn của lớp, so với việc đoán với phân phối mục tiêu.


1
Tôi có cảm giác đoạn cuối nên đọc "Bằng tiếng Anh đơn giản, nó đo mức độ phân loại tốt hơn so với đoán với phân phối mục tiêu".
Cá bạc

8

Giá trị nào của kappa của Cohen mạnh tùy thuộc vào một số yếu tố, ví dụ như số lượng danh mục hoặc mã được sử dụng ảnh hưởng đến kappa1 và xác suất mỗi mã sẽ được đưa vào.

"Ví dụ, được cung cấp mã có thể trang bị và người quan sát có độ chính xác 85%:

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

Bây giờ, nếu chúng ta không có mã có thể trang bị nhưng có "mức giá cơ bản" khác nhau thì sao?

Đối với hai mã, các ô kappa từ Bruckner et al. sẽ giống nhưnhập mô tả hình ảnh ở đây

... Tuy nhiên (... trích dẫn Wikipedia tiếp tục) , các hướng dẫn về cường độ đã xuất hiện trong tài liệu. Có lẽ đầu tiên là Landis và Koch, những người đặc trưng cho các giá trị

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

Tuy nhiên, bộ hướng dẫn này không được chấp nhận rộng rãi; Landis và Koch không cung cấp bằng chứng để hỗ trợ nó, thay vào đó dựa trên ý kiến ​​cá nhân. Nó đã được lưu ý rằng những hướng dẫn này có thể có hại hơn là hữu ích. Hướng dẫn tùy tiện không kém của Fleiss đặc trưng cho kappas hơn

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(trích dẫn cuối Wikipedia)

Để nâng cấp (khó tìm) chương trình Windows FalliObs để tính số lượng mã ban đầu được cung cấp bởi Bakeman et al. theo liên kết đến ComKappa3 . Mô tả chương trình liên quan đến sai số chuẩn của kappa có thể được ước tính, cho phép kappa thu được được kiểm tra mức độ quan trọng đối với phân phối null (Bakeman & Gottman, 1997; Fleiss, Cohen, & Everitt, 1969). Để đọc thêm cho các biện pháp kappa khác, xem PHÂN TÍCH CÁC ĐƯỜNG Đ BEP .212

Đồng thời xem Sử dụng thống kê kappa của Cohen để đánh giá phân loại nhị phân cho một câu hỏi tương tự.

1 Bakeman, R.; Quera, V.; McArthur, Đ.; Robinson, BF (1997). "Phát hiện các mẫu liên tiếp và xác định độ tin cậy của chúng với các nhà quan sát rõ ràng". Phương pháp tâm lý. 2: 357 Vang370. doi: 10.1037 / 1082-989X.2.4.357

2 Robinson BF, Bakeman R. ComKappa: Chương trình 95 của Windows để tính toán kappa và các thống kê liên quan. Phương pháp nghiên cứu hành vi. 1998; 30: 731-2.


1

để trả lời câu hỏi của bạn (bằng tiếng Anh đơn giản :-)):

Làm thế nào để Kappa giúp đánh giá hiệu suất dự đoán của phân loại? Nó nói gì vậy? !!

Bạn nên coi kappa là thước đo thỏa thuận giữa 2 cá nhân để kết quả có thể được hiểu là:

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
Đừng áp dụng thang đo này một cách mù quáng, hãy đọc câu trả lời từ rbx: "Không có cách giải thích chuẩn hóa về thống kê kappa. ... Landis và Koch coi 0-0,20 là nhẹ, 0,21-0,40 là công bằng, 0,41-0,60 là vừa phải , 0,61-0,80 là đáng kể và 0,81-1 là gần như hoàn hảo. Fleiss coi kappas> 0,75 là tuyệt vời, 0,40-0,75 là công bằng với tốt và <0,40 là kém. Điều quan trọng cần lưu ý là cả hai thang đo đều có phần tùy ý. ít nhất hai sự cân nhắc thêm cần được tính đến khi diễn giải thống kê kappa. " Những cân nhắc này được giải thích trong câu trả lời của
rbx
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.