Những tác động nào làm tăng dữ liệu đào tạo có độ chính xác của hệ thống?


15

Ai đó có thể tóm tắt cho tôi với các ví dụ có thể, trong những tình huống tăng dữ liệu đào tạo cải thiện hệ thống tổng thể? Khi nào chúng tôi phát hiện ra rằng việc thêm nhiều dữ liệu đào tạo có thể có thể quá phù hợp với dữ liệu và không cung cấp độ chính xác tốt cho dữ liệu thử nghiệm?

Đây là một câu hỏi không cụ thể, nhưng nếu bạn muốn trả lời cụ thể cho một tình huống cụ thể, xin vui lòng làm như vậy.


chỉ tự hỏi - đây có phải là về việc chia 50-50 thành tàu / kiểm tra có tốt hơn so với nói 75-25 không?
xác suất

Câu trả lời:


19

Trong hầu hết các tình huống, nhiều dữ liệu thường tốt hơn . Quá mức về cơ bản là học các tương quan giả xảy ra trong dữ liệu đào tạo của bạn, nhưng không phải trong thế giới thực. Ví dụ: nếu bạn chỉ xem xét các đồng nghiệp của tôi, bạn có thể học cách liên kết "tên Matt" với "có râu". Nó hợp lệ 100% ( , thậm chí!), Nhưng nói chung nó không đúng. Việc tăng kích thước tập dữ liệu của bạn (ví dụ: cho toàn bộ tòa nhà hoặc thành phố) sẽ làm giảm các mối tương quan giả này và cải thiện hiệu suất của người học của bạn.n= =4

Điều đó nói rằng, một tình huống mà nhiều dữ liệu không giúp được --- và thậm chí có thể làm tổn thương --- là nếu dữ liệu đào tạo bổ sung của bạn ồn ào hoặc không khớp với bất cứ điều gì bạn đang cố gắng dự đoán. Tôi đã từng làm một thí nghiệm trong đó tôi cắm các mô hình ngôn ngữ khác nhau [*] vào hệ thống đặt chỗ nhà hàng được kích hoạt bằng giọng nói. Tôi đã thay đổi số lượng dữ liệu đào tạo cũng như mức độ liên quan của nó: ở một thái cực, tôi đã có một bộ sưu tập nhỏ những người đặt bàn cẩn thận, một kết hợp hoàn hảo cho ứng dụng của tôi. Mặt khác, tôi đã có một mô hình được ước tính từ bộ sưu tập lớn của văn học cổ điển, một mô hình ngôn ngữ chính xác hơn, nhưng phù hợp với ứng dụng này. Trước sự ngạc nhiên của tôi, mô hình nhỏ nhưng có liên quan bao la vượt trội so với mô hình lớn nhưng ít có liên quan.

Một tình huống đáng ngạc nhiên, được gọi là giảm dần , cũng xảy ra khi kích thước của tập huấn gần với số lượng tham số mô hình. Trong những trường hợp này, rủi ro kiểm tra trước tiên giảm khi quy mô của tập huấn tăng lên, tăng tạm thời khi thêm một chút dữ liệu đào tạo và cuối cùng bắt đầu giảm trở lại khi tập huấn luyện tiếp tục tăng. Hiện tượng này đã được báo cáo 25 năm trong tài liệu mạng thần kinh (xem Opper, 1995), nhưng cũng xảy ra trong các mạng hiện đại ( Advani và Saxe, 2017 ). Thật thú vị, điều này xảy ra ngay cả đối với hồi quy tuyến tính, mặc dù phù hợp với SGD ( Nakkiran, 2019). Hiện tượng này vẫn chưa hoàn toàn được hiểu và phần lớn là về lợi ích lý thuyết: Tôi chắc chắn sẽ không sử dụng nó như một lý do để không thu thập thêm dữ liệu (mặc dù tôi có thể miệt mài với kích thước tập huấn luyện nếu n == p và hiệu suất bất ngờ ).

[*] Một mô hình ngôn ngữ chỉ là xác suất nhìn thấy một chuỗi các từ nhất định, ví dụ . Chúng rất quan trọng để xây dựng các nhận dạng giọng nói / nhân vật nửa chừng.P(wn= ='nhanh chóng', wn+1= ='nâu', wn+2= ='cáo')


Một số quan tâm


12

Một lưu ý: bằng cách thêm nhiều dữ liệu (hàng hoặc ví dụ, không phải cột hoặc tính năng), cơ hội của bạn sẽ bị giảm quá mức thay vì tăng.

Tóm tắt hai đoạn như sau:

  • Thêm nhiều ví dụ, thêm sự đa dạng. Nó giảm lỗi tổng quát hóa vì mô hình của bạn trở nên tổng quát hơn nhờ được đào tạo trên nhiều ví dụ.
  • Thêm nhiều tính năng đầu vào hoặc cột (vào một số ví dụ cố định) có thể tăng quá mức vì nhiều tính năng có thể không liên quan hoặc không cần thiết và có nhiều cơ hội để làm phức tạp mô hình để phù hợp với các ví dụ trong tay.

Có một số tiêu chí đơn giản để so sánh chất lượng của các mô hình. Hãy xem ví dụ tại AIC hoặc tại BIC .

Cả hai đều cho thấy rằng việc thêm nhiều dữ liệu luôn giúp mô hình tốt hơn, đồng thời thêm độ phức tạp của tham số vượt quá mức tối ưu, làm giảm chất lượng mô hình.


1

Tăng dữ liệu đào tạo luôn thêm thông tin và nên cải thiện sự phù hợp. Khó khăn sẽ đến nếu sau đó bạn đánh giá hiệu suất của trình phân loại chỉ trên dữ liệu đào tạo được sử dụng cho phù hợp. Điều này tạo ra các đánh giá thiên vị lạc quan và là lý do tại sao xác thực chéo hoặc bootstrap bỏ qua được sử dụng thay thế.


1

Lý tưởng nhất là khi bạn có nhiều ví dụ đào tạo hơn, bạn sẽ có lỗi kiểm tra thấp hơn (phương sai của mô hình giảm, nghĩa là chúng ta ít bị thừa), nhưng về mặt lý thuyết, nhiều dữ liệu hơn không có nghĩa là bạn sẽ có mô hình chính xác hơn vì các mô hình thiên vị cao sẽ không được hưởng lợi từ các ví dụ đào tạo nhiều hơn .

Xem ở đây: Trong Machine Learning, What is Better: Nhiều dữ liệu hơn hoặc thuật toán tốt hơn

Phương sai cao - một mô hình đại diện cho đào tạo được thiết lập tốt, nhưng có nguy cơ vượt quá dữ liệu đào tạo ồn ào hoặc không có tính đại diện.

Độ lệch cao - một mô hình đơn giản hơn không có xu hướng quá phù hợp, nhưng có thể không phù hợp với dữ liệu đào tạo, không nắm bắt được các quy tắc quan trọng.


-1

Phân tích phổ sẽ giúp phân tích tính đa dạng của mẫu, trên thực tế, thông tin sai lệch sẽ được học trong mô hình nếu không thêm "mẫu thực", thường được gọi là khớp quá mức. Thông thường, nếu thông tin được cung cấp theo mẫu ít hơn, mẫu thực hơn được khuyến khích cung cấp để đảm bảo thông tin hữu ích có thể được sử dụng trong thử nghiệm. Chúc may mắn!


3
Thật khó để làm cho bất kỳ ý nghĩa của câu trả lời này. Có lẽ nó được dịch bằng máy từ một số ngôn ngữ khác? Có cách nào để bạn có thể xem lại và chỉnh sửa nó để nó truyền đạt những ý tưởng bạn muốn chia sẻ với chúng tôi không?
whuber

Tôi không hiểu phản ứng của bạn là gì.
dùng162580

3
Có vẻ như chúng tôi có vấn đề về ngôn ngữ: những từ bạn đăng không có nghĩa bằng tiếng Anh. Bạn có thể thay đổi chúng để chúng có ý nghĩa?
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.