Định nghĩa toán học / thuật toán cho quá mức


18

Có một định nghĩa toán học hoặc thuật toán của quá mức?

Các định nghĩa thường được cung cấp là biểu đồ 2-D cổ điển của các điểm với một đường đi qua từng điểm và đường cong mất xác nhận đột nhiên tăng lên.

Nhưng có một định nghĩa nghiêm ngặt về mặt toán học?

Câu trả lời:


22

Vâng, có một định nghĩa khắt khe (hơn một chút):

Với một mô hình với một tập các tham số, mô hình có thể được cho là quá mức dữ liệu nếu sau một số bước đào tạo nhất định, lỗi đào tạo tiếp tục giảm trong khi lỗi ngoài mẫu (kiểm tra) bắt đầu tăng.

nhập mô tả hình ảnh ở đây Trong ví dụ này, lỗi ngoài mẫu (kiểm tra / xác thực) trước tiên giảm đồng bộ với lỗi tàu, sau đó nó bắt đầu tăng khoảng kỷ nguyên thứ 90, đó là khi bắt đầu quá mức

Một cách khác để xem xét nó là về sự thiên vị và phương sai. Lỗi ngoài mẫu cho một mô hình có thể được phân tách thành hai thành phần:

  • Xu hướng: Lỗi do giá trị dự kiến ​​từ mô hình ước tính khác với giá trị dự kiến ​​của mô hình thực.
  • Phương sai: Lỗi do mô hình nhạy cảm với các dao động nhỏ trong tập dữ liệu.

Quá mức xảy ra khi độ lệch thấp, nhưng phương sai cao. Đối với tập dữ liệu trong đó mô hình đúng (chưa biết) là:X

Y=f(X)+ϵ - là tiếng ồn không thể giảm được trong tập dữ liệu, với và , ϵE(ϵ)=0Var(ϵ)=σϵ

và mô hình ước tính là:

Y^=f^(X) ,

sau đó lỗi kiểm tra (đối với điểm dữ liệu kiểm tra ) có thể được viết là:xt

Err(xt)=σϵ+Bias2+Variance

với và Bias2=E[f(xt)f^(xt)]2Variance=E[f^(xt)E[f^(xt)]]2

(Nói đúng ra, sự phân tách này được áp dụng trong trường hợp hồi quy, nhưng một phép phân tách tương tự cũng hoạt động đối với bất kỳ hàm mất mát nào, tức là trong trường hợp phân loại là tốt).

Cả hai định nghĩa trên đều gắn liền với độ phức tạp của mô hình (được đo bằng số lượng tham số trong mô hình): Độ phức tạp của mô hình càng cao thì khả năng xảy ra quá mức sẽ xảy ra.

Xem chương 7 của các yếu tố của học thống kê để biết cách xử lý toán học nghiêm ngặt của chủ đề.

nhập mô tả hình ảnh ở đây Sự đánh đổi Bias-Variance và Variance (nghĩa là quá mức) tăng lên với độ phức tạp của mô hình. Lấy từ ESL Chương 7


1
Có thể giảm cả lỗi đào tạo và kiểm tra, nhưng người mẫu vẫn mặc trang phục? Trong tâm trí của tôi, sự khác biệt của đào tạo và kiểm tra lỗi cho thấy quá mức, nhưng quá mức không nhất thiết phải kéo theo sự phân kỳ. Ví dụ, một NN học cách phân biệt tội phạm với những người không phải tội phạm bằng cách nhận ra nền trắng của ảnh trong tù là quá mức, nhưng các lỗi đào tạo và kiểm tra có lẽ không phải là phân kỳ.
yters

@yters trong trường hợp đó, tôi không nghĩ sẽ có bất kỳ cách nào để đo lường mức độ quá mức xảy ra. Tất cả những gì bạn có quyền truy cập là dữ liệu đào tạo và thử nghiệm và nếu cả hai bộ dữ liệu đều thể hiện cùng một tính năng mà NN tận dụng (nền trắng), thì đó đơn giản là một tính năng hợp lệ nên được tận dụng và không nhất thiết phải quá mức. Nếu bạn không muốn tính năng đó, thì bạn sẽ phải bao gồm các biến thể của nó trong bộ dữ liệu của mình.
Calvin Godfrey

1
@yters ví dụ của bạn là những gì tôi nghĩ là "quá mức xã hội": Về mặt toán học, mô hình không phải là quá mức, nhưng có một số cân nhắc xã hội bên ngoài dẫn đến dự đoán không hoạt động tốt. Một ví dụ thú vị hơn là một số cuộc thi Kaggle và các bộ dữ liệu mở khác nhau như Boston Housing, MNIST, v.v ... bản thân mô hình có thể không bị quá mức (về độ lệch, phương sai, v.v.), nhưng có rất nhiều kiến thức về vấn đề trong cộng đồng nói chung (kết quả từ các nhóm nghiên cứu và tài liệu nghiên cứu trước đây, hạt nhân được chia sẻ công khai, v.v ...) dẫn đến tình trạng thừa.
Skander H. - Tái lập Monica

1
@yters (tiếp theo) đó là lý do tại sao về mặt lý thuyết, một bộ dữ liệu xác nhận riêng biệt (bên cạnh bộ dữ liệu thử nghiệm) sẽ vẫn nằm trong "kho tiền" và không được sử dụng cho đến khi xác thực cuối cùng.
Skander H. - Tái lập Monica

1
@CalvinGodfrey đây là một ví dụ kỹ thuật hơn. Giả sử tôi có một tập dữ liệu phân loại nhị phân được chia đều giữa hai lớp và sau đó thêm nhiễu vào phân loại từ phân phối Bernoulli khá mất cân bằng để tập dữ liệu bị lệch về một trong các lớp. Tôi chia dữ liệu thành một chuyến tàu và thử nghiệm, và đạt được độ chính xác cao trên cả hai phần do phân phối không cân bằng. Tuy nhiên, độ chính xác của mô hình không cao bằng phân loại dữ liệu thực bởi vì mô hình đã học được phân phối Bernoulli bị lệch.
yters
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.