Tôi có một nhiệm vụ phân loại trong đó tôi có một số dự đoán (một trong số đó là thông tin nhiều nhất) và tôi đang sử dụng mô hình MARS để xây dựng trình phân loại của mình (tôi quan tâm đến bất kỳ mô hình đơn giản nào và sử dụng glms cho mục đích minh họa tốt thôi). Bây giờ tôi có sự mất cân bằng lớp lớn trong dữ liệu đào tạo (khoảng 2700 mẫu âm tính cho mỗi mẫu dương tính). Tương tự như các nhiệm vụ Truy xuất thông tin, tôi quan tâm nhiều hơn đến việc dự đoán các mẫu thử nghiệm dương tính xếp hạng hàng đầu. Vì lý do này, hiệu suất trên các đường cong Precision Recall rất quan trọng đối với tôi.
Trước hết, tôi chỉ đơn giản là đào tạo mô hình về dữ liệu đào tạo của mình để giữ sự mất cân bằng của lớp học. Tôi hình dung mô hình được đào tạo của tôi bằng màu đỏ và đầu vào quan trọng nhất màu xanh lam.
Đào tạo về dữ liệu không cân bằng, đánh giá về dữ liệu không cân bằng :
Nghĩ rằng sự mất cân bằng trong lớp đang làm mất đi mô hình, vì việc học các mẫu dương tính xếp hạng hàng đầu là một phần rất nhỏ trong toàn bộ tập dữ liệu, tôi đã ghép các điểm đào tạo tích cực để có được một tập dữ liệu huấn luyện cân bằng. Khi tôi vẽ hiệu suất trên tập huấn luyện cân bằng , tôi có được hiệu suất tốt. Trong cả hai đường cong PR và ROC, mô hình được đào tạo của tôi làm tốt hơn các đầu vào.
Đào tạo về dữ liệu cân bằng (upampling), đánh giá cũng về dữ liệu cân bằng (upampling):
Tuy nhiên, nếu tôi sử dụng mô hình này được đào tạo trên dữ liệu cân bằng, để dự đoán về tập huấn luyện ban đầu, không cân bằng, tôi vẫn nhận được hiệu suất kém trên đường cong PR.
Đào tạo về (lấy mẫu) dữ liệu cân bằng, đánh giá về dữ liệu không cân bằng gốc:
Vì vậy, câu hỏi của tôi là:
- Là lý do trực quan hóa đường cong PR cho thấy hiệu suất kém hơn của mô hình được đào tạo của tôi (màu đỏ), trong khi đường cong ROC cho thấy sự cải thiện vì sự mất cân bằng của lớp?
- Các cách tiếp cận lấy mẫu / lấy mẫu lên / xuống mẫu có thể giải quyết điều này để buộc đào tạo tập trung vào vùng thu hồi thấp / độ chính xác cao?
- Có cách nào khác để tập trung đào tạo vào khu vực thu hồi chính xác cao / thấp không?