Tôi đã đào tạo hai mô hình (phân loại nhị phân bằng h2o AutoML) và tôi muốn chọn một mô hình để sử dụng. Tôi có kết quả như sau:
model_id auc logloss logloss_train logloss_valid gini_train gini_valid
DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975
DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662
các auc
và logloss
cột là những số liệu cross-validation (xác nhận chéo chỉ sử dụng dữ liệu huấn luyện). các ..._train
và ..._valid
số liệu được tìm thấy bằng cách chạy các số liệu đào tạo và xác nhận thông qua các mô hình tương ứng. Tôi muốn sử dụng logloss_valid
hoặc gini_valid
để chọn một mô hình tốt nhất.
Mô hình 1 có gini tốt hơn (tức là AUC tốt hơn) nhưng mô hình hai có logloss tốt hơn. Câu hỏi của tôi là chọn cái nào mà tôi nghĩ đặt ra câu hỏi, đâu là ưu điểm / nhược điểm của việc sử dụng gini (AUC) hoặc logloss làm thước đo quyết định.