Tôi đã chạy xác thực chéo 10 lần trên các thuật toán phân loại nhị phân khác nhau, với cùng một bộ dữ liệu và nhận được cả kết quả trung bình của Micro và Macro. Cần phải đề cập rằng đây là một vấn đề phân loại nhiều nhãn.
Trong trường hợp của tôi, tiêu cực thực sự và tích cực thực sự có trọng số như nhau. Điều đó có nghĩa là dự đoán chính xác các tiêu cực thực sự cũng quan trọng không kém như dự đoán chính xác các tích cực thực sự.
Các biện pháp trung bình vi mô thấp hơn các biện pháp trung bình vĩ mô. Dưới đây là kết quả của Mạng nơ-ron thần kinh và Máy Vector hỗ trợ:
Tôi cũng đã chạy thử nghiệm phân chia tỷ lệ phần trăm trên cùng một tập dữ liệu với một thuật toán khác. Kết quả là:
Tôi muốn so sánh thử nghiệm phân chia tỷ lệ phần trăm với kết quả trung bình vĩ mô, nhưng điều đó có công bằng không? Tôi không tin rằng các kết quả trung bình vĩ mô là sai lệch bởi vì dương tính thực sự và tiêu cực thực sự có trọng số như nhau, nhưng một lần nữa, tôi tự hỏi liệu điều này có giống như so sánh táo với cam không?
CẬP NHẬT
Dựa trên các ý kiến tôi sẽ chỉ ra cách tính trung bình vi mô và vĩ mô.
Tôi có 144 nhãn (giống như các tính năng hoặc thuộc tính) mà tôi muốn dự đoán. Độ chính xác, thu hồi và F-Đo được tính cho mỗi nhãn.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
Xem xét một biện pháp đánh giá nhị phân B (tp, tn, fp, fn) được tính toán dựa trên các giá trị dương (tp), âm tính thực (tn), dương tính giả (fp) và âm tính giả (fn). Trung bình vĩ mô và vi mô của một biện pháp cụ thể có thể được tính như sau:
Sử dụng các công thức này, chúng ta có thể tính trung bình vi mô và vĩ mô như sau:
Vì vậy, các biện pháp trung bình vi mô thêm tất cả tp, fp và fn (cho mỗi nhãn), sau đó đánh giá nhị phân mới được thực hiện. Các biện pháp trung bình vĩ mô thêm tất cả các biện pháp (Chính xác, Thu hồi hoặc F-Đo) và chia cho số lượng nhãn, giống như một mức trung bình.
Bây giờ, câu hỏi là sử dụng cái nào?