Vấn đề với độ chính xác
Độ chính xác tiêu chuẩn được định nghĩa là tỷ lệ phân loại chính xác với số lượng phân loại được thực hiện.
accuracy:=correct classificationsnumber of classifications
Do đó, đây là biện pháp tổng thể đối với tất cả các lớp và vì chúng ta sẽ sớm thấy rằng đó không phải là một biện pháp tốt để phân biệt một lời sấm truyền với một bài kiểm tra hữu ích thực tế. Một nhà tiên tri là một chức năng phân loại trả về một dự đoán ngẫu nhiên cho mỗi mẫu. Tương tự như vậy, chúng tôi muốn có thể đánh giá hiệu suất phân loại của chức năng phân loại của chúng tôi. Độ chính xác \ textit {can} là một thước đo hữu ích nếu chúng ta có cùng số lượng mẫu cho mỗi lớp nhưng nếu chúng ta có một bộ mẫu không cân bằng thì độ chính xác hoàn toàn không hữu ích. Thậm chí nhiều hơn, một thử nghiệm có thể có độ chính xác cao nhưng thực sự hoạt động kém hơn so với thử nghiệm có độ chính xác thấp hơn.
Nếu chúng ta có phân phối mẫu sao cho 90 \% mẫu thuộc về loại A , 5 \% thuộc về B và 5 \% khác thuộc về C thì hàm phân loại sau sẽ có độ chính xác là 0.9 :
classify(sample):={Aif ⊤
Tuy nhiên, rõ ràng cho rằng chúng tôi biết làm thế nào classify làm việc rằng đây nó không thể nói các lớp học ngoài ở tất cả. Tương tự như vậy, chúng ta có thể xây dựng một chức năng phân loại
classify(sample):=guess⎧⎩⎨ABCwith p =0.96with p =0.02with p =0.02
trong đó có độ chính xác 0.96⋅0.9+0.02⋅0.05⋅2=0.866 và sẽ không luôn luôn dự đoán
A nhưng vẫn cho rằng chúng tôi biết làm thế nào classify làm việc rõ ràng là nó không thể nói lớp ngoài. Độ chính xác trong trường hợp này chỉ cho chúng ta biết chức năng phân loại của chúng ta tốt như thế nào khi đoán. Điều này có nghĩa là độ chính xác không phải là một biện pháp tốt để phân biệt một lời tiên tri ngoài một bài kiểm tra hữu ích.
Độ chính xác trên mỗi lớp
Chúng ta có thể tính toán độ chính xác riêng cho từng lớp bằng cách chỉ cung cấp cho hàm phân loại của chúng ta các mẫu từ cùng một lớp và ghi nhớ và đếm số lượng phân loại chính xác và phân loại không chính xác sau đó tính toán accuracy:=correct/(correct+incorrect) . Chúng tôi lặp lại điều này cho mỗi lớp. Nếu chúng ta có một hàm phân loại có thể nhận ra chính xác lớp
A nhưng sẽ đưa ra dự đoán ngẫu nhiên cho các lớp khác thì điều này dẫn đến độ chính xác là 1.00 cho
A và độ chính xác là 0.33cho các lớp khác Điều này đã cung cấp cho chúng tôi một cách tốt hơn nhiều để đánh giá hiệu suất của chức năng phân loại của chúng tôi. Một nhà tiên tri luôn đoán cùng một lớp sẽ tạo ra độ chính xác cho mỗi lớp là 1.00 cho lớp đó, nhưng 0.00 cho lớp kia. Nếu thử nghiệm của chúng tôi là hữu ích, tất cả các độ chính xác cho mỗi lớp sẽ >0.5 . Mặt khác, thử nghiệm của chúng tôi không tốt hơn cơ hội. Tuy nhiên, độ chính xác cho mỗi lớp không tính đến dương tính giả. Mặc dù chức năng phân loại của chúng tôi có độ chính xác 100 \% cho lớp A , cũng sẽ có kết quả dương tính giả đối với A (chẳng hạn như B được phân loại sai thành A ).
Độ nhạy và độ đặc hiệu
Trong các xét nghiệm y tế độ nhạy được định nghĩa là tỷ lệ giữa những người được xác định chính xác là có bệnh và số người thực sự mắc bệnh. Độ đặc hiệu được định nghĩa là tỷ lệ giữa những người được xác định chính xác là khỏe mạnh và lượng người thực sự khỏe mạnh. Lượng người thực sự mắc bệnh là lượng kết quả xét nghiệm dương tính thật cộng với lượng kết quả xét nghiệm âm tính giả. Lượng người thực sự khỏe mạnh là lượng kết quả xét nghiệm âm tính thật cộng với lượng kết quả xét nghiệm dương tính giả.
Phân loại nhị phân
Trong các bài toán phân loại nhị phân có hai lớp P và N . Tn đề cập đến số lượng mẫu được xác định chính xác là thuộc về lớp n và Fn đề cập đến số lượng mẫu được xác định sai là thuộc về lớp n . Trong trường hợp này độ nhạy và độ đặc hiệu được xác định như sau:
sensitivity:=TPTP+FNspecificity:=TNTN+FP
TP là dương tính thậtFN là âm tính giả,TN
là âm tính thật vàFP là dương tính giả. Tuy nhiên, suy nghĩ về âm và dương là tốt cho bài kiểm tra y tế nhưng để có được một trực giác tốt hơn chúng ta không nên nghĩ về âm và dương nhưng trong lớp genericα vàβ . Sau đó, chúng ta có thể nói rằng số lượng mẫu được xác định một cách chính xác là thuộc vềα làTα và số lượng mẫu mà thực sự thuộc vềα làTα+Fβ. Lượng mẫu được xác định một cách chính xác như không thuộc α là Tβ và số lượng mẫu thực sự không thuộc α là
T β và số lượng mẫu thực sự thuộc beta là T β + F α . Lượng mẫu được xác định một cách chính xác như không thuộc betaTβ+Fα . Điều này cho phép chúng ta nhạy và độ đặc hiệu choα nhưng chúng ta cũng có thể áp dụng điều tương tự với lớpβ . Lượng mẫu được xác định một cách chính xác là thuộc vềβ được
là TTββTβ+FαβTα và số lượng mẫu thực sự không thuộcβlàTα+Fβ . Do đó, chúng tôi có được độ nhạy và độ đặc hiệu cho mỗi lớp:
sensitivityα:=TαTα+Fβspecificityα:=TβTβ+Fαsensitivityβ:=TβTβ+Fαspecificityβ:=TαTα+Fβ
Tuy nhiên chúng tôi nhận thấy rằng sensitivityα=specificityβ và specificityα=sensitivityβ. Điều này có nghĩa là nếu chúng ta chỉ có hai lớp, chúng ta không cần độ nhạy và độ đặc hiệu cho mỗi lớp.
Phân loại N-Ary
Độ nhạy và độ đặc hiệu cho mỗi lớp không hữu ích nếu chúng ta chỉ có hai lớp, nhưng chúng ta có thể mở rộng nó thành nhiều lớp. Độ nhạy và độ đặc hiệu được định nghĩa là:
sensitivity:=true positivestrue positives+false negativesspecificity:=true negativestrue negatives+false-positives
Tn∑i(Fn,i)∑i(Fi,n)n∑i(Ti)−T(n)nn∑i(∑k(Fi,k))nn∑i(Fn,i)n∑i(Fi,n)∑i(Ti)−T(n)+∑i(∑k(Fn,i))−∑i(Fn,i)−∑i(Fi,n). Tóm lại, chúng tôi có:
true positives:=Tntrue negatives:=∑i(Ti)−T(n)+∑i(∑k(Fn,i))−∑i(Fn,i)−∑i(Fi,n)false positives:=∑i(Fi,n)false negatives:=∑i(Fn,i)
sensitivity(n):=TnTn+∑i(Fn,i)specificity(n):=∑i(Ti)−Tn+∑i(∑k(Fi,k))−∑i(Fn,i)−∑i(Fi,n)∑i(Ti)−Tn+∑i(∑k(Fi,k))−∑i(Fn,i)
Giới thiệu niềm tin
confidence⊤Tn+∑i(Fi,n)nTn
confidence⊤(n):=TnTn+∑i(Fi,n)
confidence⊥nn
∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn∑i(Fn,i)
confidence⊥(n)=∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn−∑i(Fn,i)∑i(∑k(Fi,k))−∑i(Fi,n)+∑i(Ti)−Tn