Nếu tôi hiểu định nghĩa về độ chính xác một cách chính xác, độ chính xác (% số điểm dữ liệu được phân loại chính xác) sẽ ít tích lũy hơn so với giả sử MSE (có nghĩa là lỗi bình phương). Đó là lý do tại sao bạn thấy rằng bạn loss
đang tăng nhanh, trong khi độ chính xác đang dao động.
Theo trực giác, điều này về cơ bản có nghĩa là, một số phần của các ví dụ được phân loại ngẫu nhiên , tạo ra dao động, vì số lần đoán ngẫu nhiên chính xác luôn dao động (hãy tưởng tượng chính xác khi đồng xu luôn luôn trả về "đầu"). Về cơ bản độ nhạy với nhiễu (khi phân loại tạo ra kết quả ngẫu nhiên) là một định nghĩa phổ biến về quá mức (xem wikipedia):
Trong thống kê và học máy, một trong những nhiệm vụ phổ biến nhất là điều chỉnh "mô hình" cho một tập hợp dữ liệu đào tạo, để có thể đưa ra dự đoán đáng tin cậy về dữ liệu chưa được đào tạo chung. Trong quá mức, một mô hình thống kê mô tả lỗi hoặc tiếng ồn ngẫu nhiên thay vì mối quan hệ cơ bản
Một bằng chứng khác về việc quá mức là sự mất mát của bạn đang gia tăng, Mất mát được đo lường chính xác hơn, nó nhạy cảm hơn với dự đoán ồn ào nếu nó không bị sigmoids / ngưỡng (dường như là trường hợp của bạn đối với tổn thất). Theo trực giác, bạn có thể tưởng tượng một tình huống khi mạng quá chắc chắn về đầu ra (khi nó sai), do đó, nó đưa ra một giá trị cách xa ngưỡng trong trường hợp phân loại sai ngẫu nhiên.
Về trường hợp của bạn, mô hình của bạn không được chính quy hóa, lý do có thể:
- không đủ điểm dữ liệu, dung lượng quá lớn
- đặt hàng
- không / sai tính năng chia tỷ lệ / chuẩn hóa
- tốc độ học tập: quá lớn, vì vậy SGD nhảy quá xa và bỏ lỡ khu vực gần cực tiểu địa phương. Đây sẽ là trường hợp cực đoan của "không phù hợp" (không nhạy cảm với dữ liệu), nhưng có thể tạo ra (loại) nhiễu "tần số thấp" trên đầu ra bằng cách xáo trộn dữ liệu từ đầu vào - trái với trực giác quá mức, nó sẽ là như luôn luôn đoán đầu khi dự đoán một đồng tiền. Như @JanKukacka chỉ ra, khi đến khu vực "quá gần với" một cực tiểu có thể gây ra overfitting, vì vậy nếu là quá nhỏ nó sẽ nhận được nhạy cảm với "tần số cao" tiếng ồn trong dữ liệu của bạn. nên ở đâu đó ở giữa.ααα
Phương pháp khả thi:
- có được nhiều điểm dữ liệu hơn (hoặc mở rộng một cách giả tạo tập hợp các điểm hiện có)
- chơi với siêu tham số (ví dụ tăng / giảm công suất hoặc thuật ngữ chính quy)
- chính quy : thử bỏ học, dừng sớm, v.v.