Tại sao độ chính xác không phải là biện pháp tốt nhất để đánh giá các mô hình phân loại?


107

Đây là một câu hỏi chung được hỏi gián tiếp nhiều lần ở đây, nhưng nó thiếu một câu trả lời có thẩm quyền duy nhất. Sẽ thật tuyệt khi có một câu trả lời chi tiết cho điều này để tham khảo.

Độ chính xác , tỷ lệ phân loại chính xác trong tất cả các phân loại, là biện pháp rất đơn giản và rất "trực quan", tuy nhiên nó có thể là một biện pháp kém cho dữ liệu mất cân bằng . Tại sao trực giác của chúng ta hiểu lầm chúng ta ở đây và có bất kỳ vấn đề nào khác với biện pháp này?

Câu trả lời:


112

Hầu hết các câu trả lời khác tập trung vào ví dụ về các lớp không cân bằng. Vâng, điều này rất quan trọng. Tuy nhiên, tôi cho rằng độ chính xác là có vấn đề ngay cả với các lớp cân bằng.

Frank Harrell đã viết về điều này trên blog của mình: Phân loại so với dự đoánthiệt hại gây ra bởi độ chính xác của phân loại và các quy tắc chấm điểm chính xác không liên tục không liên tục khác .

Về cơ bản, lập luận của ông là thành phần thống kê của bài tập của bạn kết thúc khi bạn đưa ra một xác suất cho mỗi lớp của mẫu mới của bạn. Lập bản đồ các xác suất dự đoán (p^,1p^) để phân loại 0-1, bằng cách chọn một ngưỡng ngoài mà bạn phân loại một quan sát mới như 1 vs 0 không phải là một phần của thống kê nữa. Nó là một phần của thành phần quyết định . Và ở đây, bạn cần đầu ra xác suất của mô hình của bạn - nhưng cũng cần cân nhắc như:

  • Hậu quả của việc quyết định coi một quan sát mới là lớp 1 so với 0 là gì? Sau đó tôi có gửi thư tiếp thị giá rẻ cho tất cả 1 người không? Hay tôi áp dụng một điều trị ung thư xâm lấn với tác dụng phụ lớn?
  • Hậu quả của việc coi "đúng" 0 là 1 và ngược lại là gì? Tôi sẽ đánh dấu một khách hàng? Đối tượng ai đó phải điều trị y tế không cần thiết?
  • Là "lớp học" của tôi thực sự rời rạc? Hoặc thực sự có một sự liên tục (ví dụ, huyết áp), trong đó các ngưỡng lâm sàng trong thực tế chỉ là các phím tắt nhận thức? Nếu vậy, hiện tại tôi đã "phân loại" bao xa?
  • Hay một xác suất thấp nhưng tích cực là loại 1 thực sự có nghĩa là "lấy thêm dữ liệu", "chạy thử nghiệm khác"?

Tùy thuộc vào hậu quả của quyết định của bạn, bạn sẽ sử dụng một ngưỡng khác nhau để đưa ra quyết định. Nếu hành động là phẫu thuật xâm lấn, bạn sẽ yêu cầu xác suất phân loại bệnh nhân cao hơn nhiều so với việc hành động đó là khuyên dùng hai viên aspirin. Hoặc thậm chí bạn có thể có ba quyết định khác nhau mặc dù chỉ có hai lớp (ốm so với khỏe): "về nhà và đừng lo lắng" so với "chạy thử nghiệm khác bởi vì chúng tôi không có kết luận" so với "hoạt động ngay lập tức" .

Cách đúng để đánh giá xác suất dự đoán (p^,1p^)không để so sánh chúng với một ngưỡng, bản đồ họ (0,1) dựa trên ngưỡng cửa và sau đó đánh giá chuyển đổi (0,1) phân loại. Thay vào đó, người ta nên sử dụng thích hợp . Đây là các hàm mất mát ánh xạ xác suất dự đoán và kết quả quan sát tương ứng với các giá trị tổn thất, được giảm thiểu theo kỳ vọng bởi xác suất thực (p,1p) . Ý tưởng là chúng tôi lấy trung bình trên quy tắc tính điểm được đánh giá trên nhiều kết quả quan sát được (tốt nhất: nhiều) và xác suất thành viên lớp dự đoán tương ứng, như một ước tính về kỳ vọng của quy tắc tính điểm.

Lưu ý rằng "thích hợp" ở đây có một ý nghĩa được xác định chính xác - có các quy tắc chấm điểm không phù hợp cũng như các quy tắc chấm điểm thích hợp và cuối cùng là các quy tắc chấm điểm đúng đắn . Ghi điểm như vậy là các hàm mất của mật độ và kết quả dự đoán. Các quy tắc chấm điểm thích hợpcác quy tắc tính điểm được giảm thiểu trong kỳ vọng nếu mật độ dự đoán là mật độ thực. Quy tắc chấm điểm đúng đắnquy tắc tính điểm chỉ giảm thiểu trong kỳ vọng nếu mật độ dự đoán là mật độ thực.

Như Frank Harrell lưu ý , độ chính xác là một quy tắc tính điểm không phù hợp. (Chính xác hơn, độ chính xác thậm chí không phải là quy tắc chấm điểm : xem câu trả lời của tôi về Độ chính xác có phải là quy tắc chấm điểm không chính xác trong cài đặt phân loại nhị phân không? ) một đồng tiền không công bằng với xác suất (0.6,0.4) . Độ chính xác được tối đa hóa nếu chúng ta phân loại mọi thứ là lớp đầu tiên và hoàn toàn bỏ qua xác suất 40% rằng bất kỳ kết quả nào có thể nằm trong lớp thứ hai. (Ở đây chúng ta thấy rằng độ chính xác là có vấn đề ngay cả đối với các lớp cân bằng.) thích hợp sẽ thích một (0.6,0.4) dự đoán đến(1,0) một trong mong đợi. Cụ thể, độ chính xác không liên tục trong ngưỡng: di chuyển ngưỡng một chút xíu có thể khiến một (hoặc nhiều) dự đoán thay đổi các lớp và thay đổi toàn bộ độ chính xác bằng một lượng riêng biệt. Điều này làm cho rất ít ý nghĩa.

Thông tin chi tiết có thể được tìm thấy tại hai bài đăng trên blog của Frank được liên kết ở trên, cũng như trong Chương 10 của Chiến lược mô hình hồi quy của Frank Harrell .

(Điều này đáng xấu hổ được đưa ra từ một câu trả lời trước đó của tôi .)


BIÊN TẬP. Câu trả lời của tôi cho Ví dụ khi sử dụng độ chính xác làm thước đo kết quả sẽ dẫn đến một kết luận sai đưa ra một ví dụ minh họa hy vọng trong đó tối đa hóa độ chính xác có thể dẫn đến các quyết định sai ngay cả đối với các lớp cân bằng .


6
Theo quan điểm của @Tim Frank (mà ông đã thảo luận trong nhiều câu trả lời trên trang web của chúng tôi và các nơi khác), theo tôi hiểu, là nếu một thuật toán phân loại không trả về xác suất thì đó không phải là rác và không nên sử dụng. Thành thật mà nói, hầu hết các thuật toán thường được sử dụng đều trả về xác suất.
amip

6
Tôi muốn nói rằng một thuật toán đưa các quan sát trong quá khứ và chỉ đưa ra các phân loại mà không tính đến các điểm ở trên (ví dụ: chi phí cho các quyết định sai lầm) làm rối loạn khía cạnh thống kê và quyết định. Giống như ai đó giới thiệu một loại xe cụ thể cho bạn mà không cần hỏi bạn trước tiên bạn có muốn vận chuyển một đội bóng chày nhỏ, một nhóm vật liệu xây dựng hay chỉ mình bạn. Vì vậy, tôi cũng nói rằng một thuật toán như vậy sẽ là rác.
Stephan Kolassa

8
Tôi sẽ viết một câu trả lời, nhưng sau đó không cần. Bravo. Tôi thảo luận điều này với các sinh viên của mình như là một "sự tách biệt mối quan tâm" giữa mô hình thống kê và ra quyết định. Loại khái niệm này có nguồn gốc rất sâu sắc trong văn hóa kỹ thuật.
Matthew Drury

8
@chainD: nếu trình phân loại của bạn (hãy nhớ, đó là phân loại có độ chính xác cao nhất ) nói rằng "mọi người trong mẫu này đều khỏe mạnh", vậy thì bác sĩ hoặc nhà phân tích nào sẽ tin rằng có nhiều câu chuyện hơn? Tôi đồng ý rằng cuối cùng, đó là lời kêu gọi nhà phân tích thực hiện, nhưng "mọi người đều khỏe mạnh" ít hữu ích hơn cho nhà phân tích so với điều gây chú ý đến sự không chắc chắn còn lại như dự đoán 95% / 5%.
Stephan Kolassa

11
Câu trả lời và nhận xét của @StephanKolassa là tuyệt vời. Một số người khác bình luận ngụ ý rằng có một sự khác biệt trong cách xem này tùy thuộc vào nền văn hóa mà bạn là một phần của. Đây không phải là trường hợp thực sự; chỉ là một số lĩnh vực bận tâm để hiểu tài liệu và những lĩnh vực khác thì không. Chẳng hạn, dự báo thời tiết đã đi đầu và đã sử dụng các quy tắc tính điểm thích hợp để đánh giá độ chính xác của người dự báo kể từ ít nhất là năm 1951.
Frank Harrell

78

Khi chúng tôi sử dụng độ chính xác, chúng tôi gán chi phí bằng nhau cho dương tính giả và âm tính giả. Khi tập dữ liệu đó bị mất cân bằng - giả sử nó có 99% trường hợp trong một lớp và chỉ có 1% ở lớp kia - có một cách tuyệt vời để giảm chi phí. Dự đoán rằng mọi trường hợp thuộc về nhóm đa số, có độ chính xác 99% và về nhà sớm.

Vấn đề bắt đầu khi chi phí thực tế mà chúng tôi chỉ định cho mọi lỗi không bằng nhau. Nếu chúng ta đối phó với một căn bệnh hiếm gặp nhưng gây tử vong, chi phí không chẩn đoán được bệnh của người bệnh cao hơn nhiều so với chi phí đưa người khỏe mạnh đi xét nghiệm nhiều hơn.

Nói chung, không có biện pháp tốt nhất chung. Các biện pháp tốt nhất được bắt nguồn từ nhu cầu của bạn. Theo một nghĩa nào đó, nó không phải là một câu hỏi học máy, mà là một câu hỏi kinh doanh. Thông thường, hai người sẽ sử dụng cùng một bộ dữ liệu nhưng sẽ chọn các số liệu khác nhau do các mục tiêu khác nhau.

Độ chính xác là một số liệu tuyệt vời. Trên thực tế, hầu hết các số liệu đều tuyệt vời và tôi thích đánh giá nhiều số liệu. Tuy nhiên, tại một số điểm, bạn sẽ cần phải quyết định giữa việc sử dụng mô hình A hoặc B. Ở đó bạn nên sử dụng một số liệu duy nhất phù hợp nhất với nhu cầu của bạn.

Đối với tín dụng bổ sung, hãy chọn số liệu này trước khi phân tích, do đó bạn sẽ không bị phân tâm khi đưa ra quyết định.


3
Câu trả lời tuyệt vời - Tôi đã đề xuất một vài chỉnh sửa chỉ để thử và làm cho điểm rõ ràng hơn cho người mới bắt đầu học máy (người mà câu hỏi này nhắm đến).
nekomatic

1
Tôi không đồng ý rằng đó không phải là vấn đề máy học. Nhưng việc giải quyết nó sẽ liên quan đến việc học máy về vấn đề meta và đòi hỏi máy phải có quyền truy cập vào một số loại dữ liệu ngoài thông tin phân loại cơ bản.
Shufflepants

3
Tôi không thấy nó chỉ là một chức năng của dữ liệu vì các mục tiêu khác nhau có thể chuyển sang các chi phí / mô hình / hiệu suất / số liệu khác nhau. Tôi đồng ý rằng nói chung, câu hỏi về chi phí có thể được xử lý bằng toán học. Tuy nhiên, các câu hỏi như chi phí điều trị bệnh nhân dựa trên thông tin hoàn toàn khác nhau. Thông tin cần thiết cho dữ liệu meta này thường không phù hợp với phương pháp học máy nên phần lớn thời gian được xử lý bằng các phương pháp khác nhau.
DaL

2
Bằng cách "misdiagnosing một người bị căn bệnh này", bạn có nghĩa là "misdiagnosing một người người có bệnh (như không có bệnh)", phải không? Bởi vì cụm từ đó có thể được giải thích theo một trong hai cách.
Tanner Swett

Bạn đúng Tanner. Tôi đã thay đổi bài kiểm tra để làm cho nó rõ ràng hơn.
DaL

20

Vấn đề với độ chính xác

Độ chính xác tiêu chuẩn được định nghĩa là tỷ lệ phân loại chính xác với số lượng phân loại được thực hiện.

accuracy:=correct classificationsnumber of classifications

Do đó, đây là biện pháp tổng thể đối với tất cả các lớp và vì chúng ta sẽ sớm thấy rằng đó không phải là một biện pháp tốt để phân biệt một lời sấm truyền với một bài kiểm tra hữu ích thực tế. Một nhà tiên tri là một chức năng phân loại trả về một dự đoán ngẫu nhiên cho mỗi mẫu. Tương tự như vậy, chúng tôi muốn có thể đánh giá hiệu suất phân loại của chức năng phân loại của chúng tôi. Độ chính xác \ textit {can} là một thước đo hữu ích nếu chúng ta có cùng số lượng mẫu cho mỗi lớp nhưng nếu chúng ta có một bộ mẫu không cân bằng thì độ chính xác hoàn toàn không hữu ích. Thậm chí nhiều hơn, một thử nghiệm có thể có độ chính xác cao nhưng thực sự hoạt động kém hơn so với thử nghiệm có độ chính xác thấp hơn.

Nếu chúng ta có phân phối mẫu sao cho 90 \% mẫu thuộc về loại A , 5 \% thuộc về B và 5 \% khác thuộc về C thì hàm phân loại sau sẽ có độ chính xác là 0.9 :

classify(sample):={Aif 

Tuy nhiên, rõ ràng cho rằng chúng tôi biết làm thế nào classify làm việc rằng đây nó không thể nói các lớp học ngoài ở tất cả. Tương tự như vậy, chúng ta có thể xây dựng một chức năng phân loại

classify(sample):=guess{Awith p =0.96Bwith p =0.02Cwith p =0.02

trong đó có độ chính xác 0.960.9+0.020.052=0.866 và sẽ không luôn luôn dự đoán A nhưng vẫn cho rằng chúng tôi biết làm thế nào classify làm việc rõ ràng là nó không thể nói lớp ngoài. Độ chính xác trong trường hợp này chỉ cho chúng ta biết chức năng phân loại của chúng ta tốt như thế nào khi đoán. Điều này có nghĩa là độ chính xác không phải là một biện pháp tốt để phân biệt một lời tiên tri ngoài một bài kiểm tra hữu ích.

Độ chính xác trên mỗi lớp

Chúng ta có thể tính toán độ chính xác riêng cho từng lớp bằng cách chỉ cung cấp cho hàm phân loại của chúng ta các mẫu từ cùng một lớp và ghi nhớ và đếm số lượng phân loại chính xác và phân loại không chính xác sau đó tính toán accuracy:=correct/(correct+incorrect) . Chúng tôi lặp lại điều này cho mỗi lớp. Nếu chúng ta có một hàm phân loại có thể nhận ra chính xác lớp A nhưng sẽ đưa ra dự đoán ngẫu nhiên cho các lớp khác thì điều này dẫn đến độ chính xác là 1.00 cho A và độ chính xác là 0.33cho các lớp khác Điều này đã cung cấp cho chúng tôi một cách tốt hơn nhiều để đánh giá hiệu suất của chức năng phân loại của chúng tôi. Một nhà tiên tri luôn đoán cùng một lớp sẽ tạo ra độ chính xác cho mỗi lớp là 1.00 cho lớp đó, nhưng 0.00 cho lớp kia. Nếu thử nghiệm của chúng tôi là hữu ích, tất cả các độ chính xác cho mỗi lớp sẽ >0.5 . Mặt khác, thử nghiệm của chúng tôi không tốt hơn cơ hội. Tuy nhiên, độ chính xác cho mỗi lớp không tính đến dương tính giả. Mặc dù chức năng phân loại của chúng tôi có độ chính xác 100 \% cho lớp A , cũng sẽ có kết quả dương tính giả đối với A (chẳng hạn như B được phân loại sai thành A ).

Độ nhạy và độ đặc hiệu

Trong các xét nghiệm y tế độ nhạy được định nghĩa là tỷ lệ giữa những người được xác định chính xác là có bệnh và số người thực sự mắc bệnh. Độ đặc hiệu được định nghĩa là tỷ lệ giữa những người được xác định chính xác là khỏe mạnh và lượng người thực sự khỏe mạnh. Lượng người thực sự mắc bệnh là lượng kết quả xét nghiệm dương tính thật cộng với lượng kết quả xét nghiệm âm tính giả. Lượng người thực sự khỏe mạnh là lượng kết quả xét nghiệm âm tính thật cộng với lượng kết quả xét nghiệm dương tính giả.

Phân loại nhị phân

Trong các bài toán phân loại nhị phân có hai lớp PN . Tn đề cập đến số lượng mẫu được xác định chính xác là thuộc về lớp nFn đề cập đến số lượng mẫu được xác định sai là thuộc về lớp n . Trong trường hợp này độ nhạy và độ đặc hiệu được xác định như sau:

sensitivity:=TPTP+FNspecificity:=TNTN+FP

TP là dương tính thậtFN là âm tính giả,TN là âm tính thật vàFP là dương tính giả. Tuy nhiên, suy nghĩ về âm và dương là tốt cho bài kiểm tra y tế nhưng để có được một trực giác tốt hơn chúng ta không nên nghĩ về âm và dương nhưng trong lớp genericαβ . Sau đó, chúng ta có thể nói rằng số lượng mẫu được xác định một cách chính xác là thuộc vềαTα và số lượng mẫu mà thực sự thuộc vềαTα+Fβ. Lượng mẫu được xác định một cách chính xác như không thuộc αTβ và số lượng mẫu thực sự không thuộc α T β và số lượng mẫu thực sự thuộc betaT β + F α . Lượng mẫu được xác định một cách chính xác như không thuộc betaTβ+Fα . Điều này cho phép chúng ta nhạy và độ đặc hiệu choα nhưng chúng ta cũng có thể áp dụng điều tương tự với lớpβ . Lượng mẫu được xác định một cách chính xác là thuộc vềβ được là TTββTβ+FαβTα và số lượng mẫu thực sự không thuộcβTα+Fβ . Do đó, chúng tôi có được độ nhạy và độ đặc hiệu cho mỗi lớp:

sensitivityα:=TαTα+Fβspecificityα:=TβTβ+Fαsensitivityβ:=TβTβ+Fαspecificityβ:=TαTα+Fβ

Tuy nhiên chúng tôi nhận thấy rằng sensitivityα=specificityβspecificityα=sensitivityβ. Điều này có nghĩa là nếu chúng ta chỉ có hai lớp, chúng ta không cần độ nhạy và độ đặc hiệu cho mỗi lớp.

Phân loại N-Ary

Độ nhạy và độ đặc hiệu cho mỗi lớp không hữu ích nếu chúng ta chỉ có hai lớp, nhưng chúng ta có thể mở rộng nó thành nhiều lớp. Độ nhạy và độ đặc hiệu được định nghĩa là:

sensitivity:=true positivestrue positives+false negativesspecificity:=true negativestrue negatives+false-positives

Tni(Fn,i)i(Fi,n)ni(Ti)T(n)nni(k(Fi,k))nni(Fn,i)ni(Fi,n)i(Ti)T(n)+i(k(Fn,i))i(Fn,i)i(Fi,n). Tóm lại, chúng tôi có:

true positives:=Tntrue negatives:=i(Ti)T(n)+i(k(Fn,i))i(Fn,i)i(Fi,n)false positives:=i(Fi,n)false negatives:=i(Fn,i)

sensitivity(n):=TnTn+i(Fn,i)specificity(n):=i(Ti)Tn+i(k(Fi,k))i(Fn,i)i(Fi,n)i(Ti)Tn+i(k(Fi,k))i(Fn,i)

Giới thiệu niềm tin

confidenceTn+i(Fi,n)nTn

confidence(n):=TnTn+i(Fi,n)

confidencenn

i(k(Fi,k))i(Fi,n)+i(Ti)Tni(Fn,i)

confidence(n)=i(k(Fi,k))i(Fi,n)+i(Ti)Tni(Fn,i)i(k(Fi,k))i(Fi,n)+i(Ti)Tn


Bạn có thể vui lòng cung cấp bất kỳ ví dụ nào về tính toán Độ chính xác trung bình bằng ma trận nhầm lẫn.
Aadnan Farooq A

Bạn có thể tìm thấy một mô tả chi tiết hơn với các ví dụ ở đây: mroman.ch/guides/sensspec.html
mroman

Đọc lại nó một lần nữa có một lỗi trong định nghĩa về độ tin cậy_false. Tôi ngạc nhiên không ai phát hiện ra điều đó. Tôi sẽ sửa nó trong vài ngày tới.
mroman

8

Các lớp mất cân bằng trong tập dữ liệu của bạn

Nói ngắn gọn: hãy tưởng tượng, 99% của một lớp (nói táo) và 1% của một lớp khác nằm trong tập dữ liệu của bạn (nói chuối). Thuật toán siêu lừa đảo của tôi có độ chính xác đáng kinh ngạc 99% cho tập dữ liệu này, hãy kiểm tra xem:

return "it's an apple"

Anh ta sẽ đúng 99% thời gian và do đó có được độ chính xác 99%. Tôi có thể bán cho bạn thuật toán của tôi?

Giải pháp: không sử dụng thước đo tuyệt đối (độ chính xác) mà là thước đo tương đối với từng lớp (có rất nhiều, như ROC AUC)


Không, AUC cũng không thích hợp cho dữ liệu mất cân bằng.
SiXUlm

@SiXUlm, bạn có thể giải thích về điều đó?
Mayou36

P(D)/P(DC)P(T|D)P(F|DC)

Một minh họa rõ ràng hơn có thể được tìm thấy ở đây: quora.com/ . Hãy xem câu trả lời của Jerry Ma.
SiXUlm

Tôi vẫn không hiểu quan điểm của bạn. Không phải đó (bao gồm cả Quora) những gì tôi đang nói trong giải pháp và chính xác hỗ trợ câu trả lời của tôi sao? Vấn đề là các linh mục không nên ảnh hưởng đến số liệu đo lường hiệu suất của mạng. Điều gì phù hợp phụ thuộc hoàn toàn vào vấn đề của bạn, ví dụ tốt nhất là tối ưu hóa cho mọi lần cắt có thể . Vì vậy, cho tôi biết: a) vì nó là bất biến với priors nhưng nhạy cảm với việc thực hiện, tại saorằng không phù hợp? b) những gì khác bạn sẽ nghĩ phù hợp hoặc những đặc điểm được yêu cầu?
Mayou36

2

Câu trả lời của DaL chính xác là thế này. Tôi sẽ minh họa nó bằng một ví dụ rất đơn giản về ... bán trứng.

21

21

Nếu trình phân loại của bạn không có lỗi, thì bạn sẽ có được doanh thu tối đa bạn có thể mong đợi. Nếu nó không hoàn hảo, thì:

  • 1
  • 1

Sau đó, độ chính xác của trình phân loại của bạn chính xác là mức độ gần với doanh thu tối đa của bạn. Đó là biện pháp hoàn hảo.

a

  • a
  • 2a

a=0.00120.001

Ví dụ, nếu trình phân loại là tìm các tài liệu liên quan trong cơ sở dữ liệu, thì bạn có thể so sánh "lãng phí" bao nhiêu thời gian để đọc một tài liệu không liên quan được so sánh với việc tìm tài liệu liên quan.


1

Độ chính xác phân loại là số lượng dự đoán đúng chia cho tổng số dự đoán.

Độ chính xác có thể gây hiểu nhầm. Ví dụ, trong một vấn đề có sự mất cân bằng lớp lớn, một mô hình có thể dự đoán giá trị của lớp đa số cho tất cả các dự đoán và đạt được độ chính xác phân loại cao. Vì vậy, các biện pháp hiệu suất tiếp theo là cần thiết như điểm F1 và điểm Brier.


-3

R2

R2 có thể có nghĩa là bạn đang mô hình nhiễu chứ không phải tín hiệu, độ chính xác cao có thể là cờ đỏ mà mô hình của bạn áp dụng quá cứng nhắc cho tập dữ liệu thử nghiệm của bạn và không có khả năng áp dụng chung. Điều này đặc biệt có vấn đề khi bạn có các loại phân loại mất cân bằng cao. Mô hình chính xác nhất có thể là một mô hình tầm thường, phân loại tất cả dữ liệu thành một loại (với độ chính xác bằng tỷ lệ của loại thường xuyên nhất), nhưng độ chính xác này sẽ giảm một cách ngoạn mục nếu bạn cần phân loại dữ liệu với phân loại thực sự khác nhau .

Như những người khác đã lưu ý, một vấn đề khác với độ chính xác là sự thờ ơ ngầm đối với giá của sự thất bại - tức là một giả định rằng tất cả các phân loại sai đều bằng nhau. Trong thực tế, chúng không phải và chi phí cho việc phân loại sai phụ thuộc rất nhiều vào chủ đề và bạn có thể thích giảm thiểu một loại sai cụ thể hơn là tối đa hóa độ chính xác.


2
Hum. (1) Tôi cho rằng việc đánh giá độ chính xác hoặc bất kỳ số liệu ngoài mẫu nào khác sẽ được hiểu, vì vậy tôi thực sự không thấy độ chính xác của vấn đề quá mức cụ thể như thế nào . (2) nếu bạn áp dụng một mô hình đào tạo về dân A đến một khác nhau dân B, sau đó bạn đang so sánh táo để cam, và tôi lại không thực sự xem làm thế nào đây là một vấn đề cụ thể về độ chính xác .
Stephan Kolassa

(1) Tuy nhiên, đây vẫn là một vấn đề về độ chính xác và câu hỏi đặt ra là sử dụng độ chính xác làm tiêu chuẩn vàng. (2) Điểm của việc xây dựng một bộ phân loại là sử dụng nó trên cam, không chỉ là những quả táo. Nó phải đủ chung để nắm bắt các tín hiệu thiết yếu trong dữ liệu (như chúng tồn tại), thay vì là một giáo lý cho dữ liệu đào tạo của bạn.
James
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.