Làm cách nào để đo hiệu suất của trình phân loại khi gần 100% nhãn lớp thuộc về một lớp?


9

Trong dữ liệu của tôi, tôi có một biến lớp học, ký hiệu là . Giá trị biến lớp này là (nhị phân). Hầu như tất cả các quan sát của đều bằng 0 (gần 100%, chính xác hơn là 97%). Tôi muốn thử nghiệm "hiệu suất" trên các mô hình phân loại khác nhau (nó có thể là độ chính xác). Điều tôi sợ xảy ra là nếu tôi có một mô hình phân loại luôn phân loại bất kỳ quan sát nào vào lớp 0, thì mô hình đó sẽ chính xác 97% (mặc dù nó không bao giờ xem xét bất kỳ biến nào khác).0 , 1 CC0,1C

Có bất kỳ thử nghiệm hiệu suất nổi tiếng nào cho các mô hình phân loại về dữ liệu xử lý các sự kiện rất hiếm không?

Câu trả lời:


3

Một vài khả năng đến với tâm trí của tôi.

Nhìn vào tỷ lệ trúng tổng thể thường không phải là một ý tưởng hay vì nó sẽ phụ thuộc vào thành phần của tập kiểm tra nếu hiệu suất của các lớp khác nhau khác nhau. Vì vậy, ít nhất, bạn nên xác định (và biện minh) tần suất tương đối của các lớp trong dữ liệu thử nghiệm của mình để lấy ra một giá trị có ý nghĩa.

Thứ hai, như @Shorack đã nói, chỉ định loại lỗi nào là quan trọng. Thông thường, bộ phân loại cần phải đáp ứng các tiêu chí hiệu suất nhất định để có ích (và độ chính xác tổng thể hiếm khi là thước đo phù hợp). Có các biện pháp như độ nhạy, độ đặc hiệu, giá trị định kiến ​​tích cực và tiêu cực có tính đến các lớp khác nhau và các loại phân loại sai khác nhau. Bạn có thể nói rằng các biện pháp này trả lời các câu hỏi khác nhau về phân loại:

  • độ nhạy: Phần nào của các trường hợp thật sự thuộc về lớp C được công nhận như vậy?
  • tính đặc hiệu: Phần nào của các trường hợp thật sự không thuộc lớp C được công nhận như vậy?
  • giá trị tiên đoán dương: Với trình phân loại dự đoán lớp C, xác suất dự đoán này là chính xác là bao nhiêu?
  • giá trị tiên đoán âm: Với trình phân loại dự đoán rằng trường hợp không phải là lớp C, xác suất dự đoán này là chính xác là bao nhiêu?

Những câu hỏi này thường cho phép xây dựng các thông số kỹ thuật mà bộ phân loại phải cần để có ích.

Các giá trị tiên đoán thường quan trọng hơn theo quan điểm của ứng dụng thực tế của phân loại: chúng dựa trên dự đoán, đó là tình huống bạn gặp phải khi áp dụng phân loại (một bệnh nhân thường không quan tâm đến việc có khả năng xét nghiệm là để nhận ra các trường hợp bệnh, nhưng khả năng chẩn đoán đã nêu là chính xác). Tuy nhiên, để tính toán chúng một cách chính xác, bạn cần biết tần số tương đối của các lớp khác nhau trong dân số, trình phân loại được sử dụng (dường như bạn có thông tin này - vì vậy không có gì khiến bạn không nhìn vào đó).

Bạn cũng có thể nhìn vào mức tăng thông tin mà một dự đoán tích cực hoặc tiêu cực mang lại cho bạn. Điều này được đo bằng tỷ lệ khả năng tích cực và tiêu cực, LR⁺ và LR⁻. Tóm lại, họ cho bạn biết mức độ dự đoán thay đổi tỷ lệ cược đối với lớp đang đề cập. (xem câu trả lời của tôi ở đây để được giải thích chi tiết hơn)

Đối với trình phân loại tầm thường của bạn, mọi thứ trông như thế này: Tôi sẽ sử dụng lớp "0" làm lớp được đề cập, vì vậy "tích cực" có nghĩa là lớp "0". Trong số 100 trường hợp, 100 trường hợp được dự đoán là dương tính (thuộc về lớp 0). 97 người trong số họ thực sự làm, 3 không. Độ nhạy đối với lớp 0 là 100% (tất cả 97 trường hợp thực sự thuộc về lớp 0 đã được công nhận), độ đặc hiệu là 0 (không có trường hợp nào khác được công nhận). giá trị dự báo dương (giả sử tần số tương đối 97: 3 là đại diện) là 97%, giá trị dự báo âm không thể được tính là không xảy ra dự đoán âm.

LR-=1-độ nhạyLR+=sensitivity1specificity=1
LR=1sensitivityspecificity=00
Bây giờ, LR⁺ và LR⁻ là các yếu tố mà bạn nhân tỷ lệ cược cho trường hợp thuộc về lớp dương ("0"). Có tỷ lệ 11 có nghĩa là dự đoán tích cực không cung cấp cho bạn bất kỳ thông tin nào: nó sẽ không thay đổi tỷ lệ cược. Vì vậy, ở đây bạn có một biện pháp thể hiện rõ ràng thực tế rằng phân loại tầm thường của bạn không thêm bất kỳ thông tin nào .


Hướng suy nghĩ hoàn toàn khác nhau: Bạn đề cập rằng bạn muốn đánh giá các phân loại khác nhau. Nghe có vẻ giống như phân loại so sánh hoặc lựa chọn. Nhắc nhở với các biện pháp tôi thảo luận ở trên là chúng có độ không chắc chắn ngẫu nhiên rất cao (có nghĩa là bạn cần rất nhiều trường hợp kiểm tra) nếu bạn đánh giá chúng trên nhãn lớp "cứng". Nếu dự đoán của bạn chủ yếu là liên tục (số liệu, ví dụ xác suất sau), bạn có thể sử dụng các biện pháp liên quan xem xét cùng loại câu hỏi nhưng không sử dụng phân số của các trường hợp nhưng các biện pháp liên tục, xem tại đây . Đây cũng sẽ phù hợp hơn để phát hiện sự khác biệt nhỏ trong dự đoán.

(@FrankHarrell sẽ cho bạn biết rằng bạn cần "quy tắc chấm điểm thích hợp", vì vậy đó là một thuật ngữ tìm kiếm khác cần ghi nhớ.)


3

Trước hết: tất cả các hit đều quan trọng như nhau và tất cả đều bỏ lỡ quan trọng như nhau? Nếu vậy, không có gì sai với việc tính điểm mô hình null của bạn là tốt: đó đơn giản là một giải pháp tuyệt vời.

Nếu bạn thấy điều quan trọng là phải có hiệu suất tốt trong việc dự đoán số 1, bạn có thể sử dụng thước đo F thay thế. Về cơ bản, đây là ý nghĩa hài hòa của việc thu hồi (phần nào trong số 1 thực tế đã được dự đoán là 1) và độ chính xác (phần nào của số 1 được dự đoán thực sự là 1). Để một mô hình đạt điểm cao trong biện pháp này, nó cần phải:

  1. Tìm hầu hết các 1.
  2. Không thường dự đoán 1 khi nó thực sự là 0.

Và nó cần phải làm cả hai cùng một lúc. Ngay cả khi mô hình của bạn chỉ thực hiện một trong 2 theo cách gần như hoàn hảo, nó sẽ có điểm thấp nếu nó không thực hiện theo yêu cầu khác. https://en.wikipedia.org/wiki/F1_score


Đó là quy tắc chấm điểm không đúng, chỉ sử dụng 1 bit thông tin từ các dự đoán. Quy tắc chấm điểm không đúng được tối ưu hóa bởi các mô hình không có thật.
Frank Harrell

2

Tôi rất vui khi @cbeleites mở cửa ... Xác suất phù hợp hoặc -index, xảy ra bằng với diện tích ROC trong trường hợp đặc biệt của nhị phân , là một bản tóm tắt hay về phân biệt dự đoán. Bản thân đường cong ROC có tỷ lệ mực: thông tin cao, nhưng diện tích dưới đường cong, vì nó bằng xác suất phù hợp, có nhiều đặc điểm hay, một trong số đó là độc lập với tỷ lệ phổ biến của vì nó có điều kiện . Nó không hoàn toàn đúng (sử dụng các biện pháp tổng quát hoặc tỷ lệ khả năng để đạt được điều đó) và không đủ nhạy để sử dụng để so sánh hai mô hình, đó là một bản tóm tắt hay của một mô hình.Y Y = 1 Y R 2 χ 2cYY=1YR2χ2


1

Đặc tính hoạt động của người nhận (ROC) http://en.wikipedia.org/wiki/Receiver_operating_characteristic và các phép tính liên quan (cụ thể là Area Under Curve- AUC) thường được sử dụng. về cơ bản, bạn tưởng tượng trình phân loại của mình đưa ra phản hồi liên tục (ví dụ từ 0 đến 1) và bạn biểu thị độ nhạy so với tốc độ cảnh báo sai (1- độ đặc hiệu) vì ngưỡng quyết định thay đổi trong khoảng từ 0 đến 1. Chúng được thiết kế riêng cho các sự kiện hiếm gặp (phát hiện kẻ thù máy bay?).


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.