Trong hầu hết các tình huống, nhiều dữ liệu thường tốt hơn . Quá mức về cơ bản là học các tương quan giả xảy ra trong dữ liệu đào tạo của bạn, nhưng không phải trong thế giới thực. Ví dụ: nếu bạn chỉ xem xét các đồng nghiệp của tôi, bạn có thể học cách liên kết "tên Matt" với "có râu". Nó hợp lệ 100% ( , thậm chí!), Nhưng nói chung nó không đúng. Việc tăng kích thước tập dữ liệu của bạn (ví dụ: cho toàn bộ tòa nhà hoặc thành phố) sẽ làm giảm các mối tương quan giả này và cải thiện hiệu suất của người học của bạn.n = 4
Điều đó nói rằng, một tình huống mà nhiều dữ liệu không giúp được --- và thậm chí có thể làm tổn thương --- là nếu dữ liệu đào tạo bổ sung của bạn ồn ào hoặc không khớp với bất cứ điều gì bạn đang cố gắng dự đoán. Tôi đã từng làm một thí nghiệm trong đó tôi cắm các mô hình ngôn ngữ khác nhau [*] vào hệ thống đặt chỗ nhà hàng được kích hoạt bằng giọng nói. Tôi đã thay đổi số lượng dữ liệu đào tạo cũng như mức độ liên quan của nó: ở một thái cực, tôi đã có một bộ sưu tập nhỏ những người đặt bàn cẩn thận, một kết hợp hoàn hảo cho ứng dụng của tôi. Mặt khác, tôi đã có một mô hình được ước tính từ bộ sưu tập lớn của văn học cổ điển, một mô hình ngôn ngữ chính xác hơn, nhưng phù hợp với ứng dụng này. Trước sự ngạc nhiên của tôi, mô hình nhỏ nhưng có liên quan bao la vượt trội so với mô hình lớn nhưng ít có liên quan.
Một tình huống đáng ngạc nhiên, được gọi là giảm dần , cũng xảy ra khi kích thước của tập huấn gần với số lượng tham số mô hình. Trong những trường hợp này, rủi ro kiểm tra trước tiên giảm khi quy mô của tập huấn tăng lên, tăng tạm thời khi thêm một chút dữ liệu đào tạo và cuối cùng bắt đầu giảm trở lại khi tập huấn luyện tiếp tục tăng. Hiện tượng này đã được báo cáo 25 năm trong tài liệu mạng thần kinh (xem Opper, 1995), nhưng cũng xảy ra trong các mạng hiện đại ( Advani và Saxe, 2017 ). Thật thú vị, điều này xảy ra ngay cả đối với hồi quy tuyến tính, mặc dù phù hợp với SGD ( Nakkiran, 2019). Hiện tượng này vẫn chưa hoàn toàn được hiểu và phần lớn là về lợi ích lý thuyết: Tôi chắc chắn sẽ không sử dụng nó như một lý do để không thu thập thêm dữ liệu (mặc dù tôi có thể miệt mài với kích thước tập huấn luyện nếu n == p và hiệu suất bất ngờ ).
[*] Một mô hình ngôn ngữ chỉ là xác suất nhìn thấy một chuỗi các từ nhất định, ví dụ . Chúng rất quan trọng để xây dựng các nhận dạng giọng nói / nhân vật nửa chừng.P( wn= 'Nhanh', wn + 1= 'Nâu', wn + 2= 'Cáo' )
Một số quan tâm