Việc phân loại có tốt hay không thực sự phụ thuộc vào
- Những gì khác có sẵn cho vấn đề cụ thể của bạn. Rõ ràng, bạn muốn một bộ phân loại tốt hơn những dự đoán ngẫu nhiên hoặc ngây thơ (ví dụ: phân loại mọi thứ thuộc về loại phổ biến nhất) nhưng một số thứ dễ phân loại hơn những thứ khác.
- Chi phí của những sai lầm khác nhau (báo động sai so với phủ định sai) và tỷ lệ cơ sở. Điều rất quan trọng là phải phân biệt hai loại và tìm ra hậu quả vì có thể có một bộ phân loại với độ chính xác rất cao (phân loại chính xác trên một số mẫu thử nghiệm) hoàn toàn vô dụng trong thực tế (giả sử bạn đang cố gắng phát hiện một bệnh hiếm gặp hoặc một số hành vi tinh nghịch không phổ biến và có kế hoạch khởi động một số hành động khi bị phát hiện; Thử nghiệm quy mô lớn gây ra chi phí gì đó và hành động / biện pháp khắc phục cũng thường liên quan đến rủi ro / chi phí đáng kể vì vậy xem xét rằng hầu hết các lần truy cập sẽ là sai lầm, từ góc độ chi phí / lợi ích có thể tốt hơn để không làm gì).
Để hiểu mối liên hệ giữa thu hồi / độ chính xác một mặt và độ nhạy / độ đặc hiệu mặt khác, thật hữu ích khi quay lại ma trận nhầm lẫn:
Condition: A Not A
Test says “A” True positive (TP) | False positive (FP)
----------------------------------
Test says “Not A” False negative (FN) | True negative (TN)
Nhớ lại là TP / (TP + FN) trong khi độ chính xác là TP / (TP + FP). Điều này phản ánh bản chất của vấn đề: Trong truy xuất thông tin, bạn muốn xác định càng nhiều tài liệu có liên quan càng tốt (đó là thu hồi) và tránh phải phân loại rác (chính xác).
Sử dụng cùng một bảng, các số liệu phân loại truyền thống là độ nhạy (1) được xác định là độ đặc hiệu TP / (TP + FN) và (2) được xác định là TN / (FP + TN). Vì vậy, việc thu hồi và độ nhạy chỉ đơn giản là đồng nghĩa nhưng độ chính xác và độ đặc hiệu được xác định khác nhau (như thu hồi và độ nhạy, độ đặc hiệu được xác định theo tổng số cột trong khi độ chính xác liên quan đến tổng hàng). Độ chính xác đôi khi còn được gọi là giá trị dự đoán dương tính, hay, hiếm khi, tỷ lệ dương dương tính giả (nhưng xem câu trả lời của tôi về Mối quan hệ giữa dương tính thật, dương tính giả, âm tính giả và âm tính đúng về sự nhầm lẫn xung quanh định nghĩa về dương tính giả này tỷ lệ).
Điều thú vị là, các số liệu truy xuất thông tin không liên quan đến số lượng tiêu cực thực sự của YouTube. Điều này có ý nghĩa: Trong quá trình truy xuất thông tin, bạn không quan tâm đến việc phân loại chính xác các trường hợp tiêu cực theo từng se , bạn chỉ không muốn quá nhiều trong số chúng làm ô nhiễm kết quả của bạn (xem thêm Tại sao không nhớ lại có tính đến các tiêu cực thực sự? ).
Do sự khác biệt này, không thể đi từ độ đặc hiệu đến độ chính xác hay ngược lại nếu không có thêm thông tin, cụ thể là số lượng âm tính thực sự hoặc, thay vào đó, tỷ lệ chung của các trường hợp tích cực và tiêu cực. Tuy nhiên, đối với cùng một tập hợp / kiểm tra, độ đặc hiệu cao hơn luôn có nghĩa là độ chính xác tốt hơn để chúng có liên quan chặt chẽ với nhau.
Trong ngữ cảnh truy xuất thông tin, mục tiêu thường là xác định một số lượng nhỏ các kết quả khớp từ một số lượng lớn tài liệu. Do tính không đối xứng này, trên thực tế khó có được độ chính xác tốt hơn nhiều so với độ đặc hiệu tốt trong khi vẫn giữ độ nhạy / thu hồi không đổi. Vì hầu hết các tài liệu đều không liên quan, bạn có nhiều lần báo động sai hơn so với dương tính thật và các báo động sai này có thể tràn vào kết quả chính xác ngay cả khi trình phân loại có độ chính xác ấn tượng trên bộ kiểm tra cân bằng (thực tế đây là những gì đang diễn ra trong các tình huống tôi đã đề cập ở điểm 2 của tôi ở trên). Do đó, bạn thực sự cần tối ưu hóa độ chính xác và không chỉ để đảm bảo tính cụ thể tốt bởi vì ngay cả tỷ lệ trông ấn tượng như 99% trở lên đôi khi cũng không đủ để tránh nhiều báo động sai.
Thường có sự đánh đổi giữa độ nhạy và độ đặc hiệu (hoặc thu hồi và độ chính xác). Theo trực giác, nếu bạn tạo một mạng lưới rộng hơn, bạn sẽ phát hiện nhiều tài liệu / trường hợp tích cực hơn (độ nhạy / thu hồi cao hơn) nhưng bạn cũng sẽ nhận được nhiều báo động sai hơn (độ đặc hiệu thấp hơn và độ chính xác thấp hơn). Nếu bạn phân loại mọi thứ trong danh mục tích cực, bạn có khả năng thu hồi / độ nhạy 100%, độ chính xác kém và phân loại chủ yếu là vô dụng (chủ yếu là vì nếu bạn không có bất kỳ thông tin nào khác, thì hoàn toàn hợp lý khi cho rằng nó sẽ không mưa trên sa mạc và để hành động phù hợp để có thể đầu ra không phải là vô dụng, tất nhiên, bạn không cần một mô hình tinh vi cho điều đó).
Xem xét tất cả điều này, độ chính xác 60% và thu hồi 95% nghe có vẻ không tệ lắm, nhưng, một lần nữa, điều này thực sự phụ thuộc vào tên miền và những gì bạn định làm với trình phân loại này.
Một số thông tin bổ sung liên quan đến các bình luận / chỉnh sửa mới nhất:
Một lần nữa, hiệu suất bạn có thể mong đợi tùy thuộc vào chi tiết cụ thể (trong bối cảnh này, đây sẽ là những thứ như bộ cảm xúc chính xác có trong tập huấn luyện, chất lượng của hình ảnh / video, độ sáng, tắc, chuyển động đầu, video hành động hoặc tự phát, mô hình phụ thuộc vào con người hoặc độc lập với con người, v.v.) nhưng F1 trên 0 có vẻ tốt cho loại ứng dụng này ngay cả khi các mô hình tốt nhất có thể làm tốt hơn trên một số bộ dữ liệu [xem Valstar, MF, Mehu, M., Jiang, B., Pantic, M., & Scherer, K. (2012). Phân tích tổng hợp các thách thức nhận dạng biểu hiện khuôn mặt đầu tiên. Giao dịch của IEEE trên Hệ thống, Con người và Điều khiển học, Phần B: Điều khiển học, 42 (4), 966-979.]
Liệu một mô hình như vậy có hữu ích trong thực tế hay không là một câu hỏi hoàn toàn khác và rõ ràng phụ thuộc vào ứng dụng. Lưu ý rằng biểu hiện trên khuôn mặt, bản thân nó là một chủ đề phức tạp và đi từ một tập huấn luyện điển hình (biểu thức đặt ra) đến bất kỳ tình huống thực tế nào là không dễ dàng. Điều này khá lạc đề trên diễn đàn này nhưng nó sẽ gây ra hậu quả nghiêm trọng cho bất kỳ ứng dụng thực tế nào bạn có thể chiêm ngưỡng.
Cuối cùng, so sánh trực tiếp giữa các mô hình là một câu hỏi khác. Tôi cho rằng những con số bạn đã trình bày là không có sự khác biệt lớn giữa các mô hình (nếu bạn tham khảo bài báo tôi đã trích dẫn ở trên, phạm vi điểm F1 cho các mô hình nổi tiếng trong lĩnh vực này rộng hơn nhiều). Trong thực tế, các khía cạnh kỹ thuật (đơn giản / sẵn có của các thư viện tiêu chuẩn, tốc độ của các kỹ thuật khác nhau, v.v.) có thể sẽ quyết định mô hình nào được triển khai, ngoại trừ có thể nếu chi phí / lợi ích và tỷ lệ chung khiến bạn ưu tiên chính xác hoặc thu hồi.