Chính quy hóa được sử dụng trong hầu hết các thuật toán học máy, nơi chúng tôi đang cố gắng học hỏi từ các mẫu dữ liệu đào tạo hữu hạn.
Tôi sẽ cố gắng gián tiếp trả lời các câu hỏi cụ thể của bạn bằng cách giải thích nguồn gốc của khái niệm chính quy hóa. Lý thuyết đầy đủ chi tiết hơn nhiều và giải thích này không nên được hiểu là hoàn chỉnh, nhưng mục đích của nó chỉ đơn giản là chỉ cho bạn đi đúng hướng để khám phá thêm. Vì mục tiêu chính của bạn là tìm hiểu trực quan về chính quy hóa, tôi đã tóm tắt và đơn giản hóa rất nhiều lời giải thích sau đây từ Chương 7 của "Mạng nơ-ron và máy học", ấn bản thứ 3 của Simon Haykin (và bỏ qua một số chi tiết trong khi thực hiện).
xiyif
Để hiểu rõ hơn, hãy hiểu thuật ngữ của Hadamard về một vấn đề "có vấn đề" - một vấn đề được đặt ra tốt nếu nó thỏa mãn ba điều kiện sau:
- xiyi
- x1x2f(x1)=f(x2)x1=x2
- f
Đối với việc học có giám sát, những điều kiện này có thể bị vi phạm kể từ:
- Một đầu ra riêng biệt có thể không tồn tại cho một đầu vào nhất định.
- Có thể không có đủ thông tin trong các mẫu đào tạo để xây dựng ánh xạ đầu vào-đầu ra duy nhất (do việc chạy thuật toán học trên các mẫu đào tạo khác nhau dẫn đến các chức năng ánh xạ khác nhau).
- Tiếng ồn trong dữ liệu làm tăng tính không chắc chắn cho quá trình tái cấu trúc có thể ảnh hưởng đến sự ổn định của nó.
Để giải quyết các vấn đề "không chính đáng" như vậy, Tikhonov đã đề xuất một phương pháp chính quy hóa để ổn định giải pháp bằng cách bao gồm một chức năng không âm, nhúng thông tin trước về giải pháp.
Dạng thông tin trước phổ biến nhất liên quan đến giả định rằng chức năng ánh xạ đầu vào-đầu ra trơn tru - tức là các đầu vào tương tự tạo ra các đầu ra tương tự.
λfλ∞∞
λ
Một số ví dụ về các hàm chi phí thường xuyên như vậy là:
Hồi quy tuyến tính:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Hồi quy logistic:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
θxhθ(x)y
L2
Hiệu quả ròng của việc áp dụng chính quy hóa là giảm độ phức tạp của mô hình làm giảm sự phù hợp quá mức. Các cách tiếp cận khác để chính quy hóa (không được liệt kê trong các ví dụ ở trên) bao gồm sửa đổi các mô hình cấu trúc như hồi quy / phân loại Cây, cây được tăng cường, v.v. bằng cách bỏ các nút để tạo ra các cây đơn giản hơn. Gần đây, điều này đã được áp dụng trong cái gọi là "học sâu" bằng cách loại bỏ các kết nối giữa các nơ-ron trong mạng lưới thần kinh.
Một câu trả lời cụ thể cho Câu 3 là một số phương pháp tương tự như Rừng ngẫu nhiên (hoặc các phương thức bỏ phiếu tương tự) đạt được sự chính quy hóa do phương pháp vốn có của chúng, tức là bỏ phiếu và bầu phản hồi từ một bộ Cây không chính quy. Mặc dù các cây riêng lẻ có quá mức phù hợp, quá trình "lấy trung bình" kết quả của chúng sẽ ngăn chặn việc tập hợp quá mức vào tập huấn luyện.
BIÊN TẬP:
Khái niệm về tính đều đặn thuộc về lý thuyết tập hợp tiên đề, bạn có thể tham khảo bài viết này để biết về con trỏ - en.wikipedia.org/wiki/Axiom_of_uityity và khám phá chủ đề này hơn nữa nếu bạn quan tâm đến chi tiết.
Về chính quy hóa cho mạng lưới thần kinh: Khi điều chỉnh các trọng số trong khi chạy thuật toán lan truyền ngược, thuật ngữ chính quy được thêm vào hàm chi phí theo cách tương tự như các ví dụ cho hồi quy tuyến tính và logistic. Vì vậy, việc bổ sung thuật ngữ chính quy hóa ngăn chặn sự lan truyền trở lại đạt đến cực tiểu toàn cầu.
Bài viết mô tả chuẩn hóa hàng loạt cho các mạng thần kinh là - Chuẩn hóa hàng loạt: Tăng tốc đào tạo mạng sâu bằng cách giảm sự thay đổi đồng biến nội bộ, Ioffe, Szegedy, 2015. Người ta đã biết rằng backpropagation để đào tạo một mạng lưới thần kinh hoạt động tốt hơn khi các biến đầu vào được chuẩn hóa. Trong bài báo này, các tác giả đã áp dụng chuẩn hóa cho từng lô nhỏ được sử dụng trong Stochastic Gradient Descent để tránh vấn đề "biến mất độ dốc" khi đào tạo nhiều lớp của mạng lưới thần kinh. Thuật toán được mô tả trong bài báo của họ xử lý giá trị trung bình và phương sai được tính trong mỗi lô cho mỗi lớp kích hoạt là một bộ tham số khác được tối ưu hóa trong SGD lô nhỏ (ngoài các trọng số NN). Các kích hoạt sau đó được chuẩn hóa bằng cách sử dụng toàn bộ tập huấn luyện. Bạn có thể tham khảo bài viết của họ để biết chi tiết đầy đủ về thuật toán này. Bằng cách sử dụng phương pháp này, họ đã có thể tránh sử dụng bỏ học để chính quy hóa, và do đó họ cho rằng đây là một loại chính quy khác.