Tôi đang học phân loại SVM và gặp phải một vấn đề. Tôi không chắc liệu vấn đề nan giải này có một thuật ngữ cho nó.
Giả sử chúng tôi muốn phân loại bệnh nhân bằng SVM dựa trên mẫu người khỏe mạnh (cả hai giới) và người bị ung thư gan (cả hai giới). Nếu chúng tôi dán nhãn những người khỏe mạnh là mẫu 1 và những người mắc bệnh ung thư là loại 2, chúng tôi có thể đào tạo một SVM nhị phân và lấy phân loại 1 để dự đoán bất kỳ bệnh nhân mới nào. Bây giờ, hình ảnh một kịch bản khác. Giả sử rằng trước tiên chúng ta chia tất cả các mẫu theo giới tính trước khi phân loại SVM. Đối với mỗi giới tính, chúng tôi vẫn dán nhãn bệnh nhân khỏe mạnh so với bệnh nhân ung thư thành 2 lớp và huấn luyện một SVM nhị phân để có được phân loại 2 và phân loại 3 tương ứng cho các mẫu nữ và nam. Câu hỏi đặt ra là nếu có một bệnh nhân nữ mới, nên sử dụng phân loại nào, 1 hoặc 2, để có được dự đoán chính xác hơn? Đây là vấn đề nan giải cho các lập luận tôi có
(1) Khi số lượng mẫu lớn, dự đoán sẽ chính xác hơn. Dựa trên lập luận này, bộ phân loại 1 có vẻ là một lựa chọn tốt.
(2) Tuy nhiên, nếu chúng ta chia mẫu thành các nhóm nữ và nam trước, phân loại 2 có vẻ là lựa chọn tốt hơn vì bệnh nhân mới (mẫu thử chưa biết) là nữ.
Liệu loại vấn đề nan giải này có một thuật ngữ hoặc có ai biết thêm thông tin hoặc làm thế nào để giải quyết vấn đề như thế này? Tôi thậm chí không chắc chắn nếu đây là một câu hỏi hợp pháp và xin lỗi cho câu hỏi ngây thơ trước. Cảm ơn