Thường xuyên và Chính quy là gì?

12

Tôi đang nghe những từ này ngày càng nhiều hơn khi tôi học máy học. Trong thực tế, một số người đã giành được huy chương Trường làm việc về tính thường xuyên của phương trình. Vì vậy, tôi đoán đây là một thuật ngữ mang chính nó từ vật lý / toán học thống kê đến học máy. Đương nhiên, một số người tôi hỏi không thể giải thích bằng trực giác.

Tôi biết rằng các phương pháp như bỏ học giúp bình thường hóa (=> họ nói rằng nó làm giảm quá mức, nhưng tôi thực sự không hiểu nó là gì: nếu nó chỉ làm giảm quá mức, tại sao không gọi nó là phương pháp chống thừa => phải có một cái gì đó nhiều hơn tôi nghĩ, do đó câu hỏi này).

Tôi sẽ rất biết ơn (tôi đoán cộng đồng ML ngây thơ cũng vậy!) Nếu bạn có thể giải thích:

Làm thế nào để bạn xác định thường xuyên? Thường xuyên là gì?
Là chính quy hóa một cách để đảm bảo sự đều đặn? tức là bắt thường xuyên?
Tại sao các phương pháp tập hợp như bỏ học, phương pháp bình thường hóa đều tuyên bố là thực hiện chính quy?
Tại sao những điều này (chính quy / chính quy) xuất hiện trong học máy?

Cảm ơn sự giúp đỡ của bạn.

— Rafael
nguồn

8

Chính quy hóa được sử dụng trong hầu hết các thuật toán học máy, nơi chúng tôi đang cố gắng học hỏi từ các mẫu dữ liệu đào tạo hữu hạn.

Tôi sẽ cố gắng gián tiếp trả lời các câu hỏi cụ thể của bạn bằng cách giải thích nguồn gốc của khái niệm chính quy hóa. Lý thuyết đầy đủ chi tiết hơn nhiều và giải thích này không nên được hiểu là hoàn chỉnh, nhưng mục đích của nó chỉ đơn giản là chỉ cho bạn đi đúng hướng để khám phá thêm. Vì mục tiêu chính của bạn là tìm hiểu trực quan về chính quy hóa, tôi đã tóm tắt và đơn giản hóa rất nhiều lời giải thích sau đây từ Chương 7 của "Mạng nơ-ron và máy học", ấn bản thứ 3 của Simon Haykin (và bỏ qua một số chi tiết trong khi thực hiện).

$x_i$ $y_i$ $f$

Để hiểu rõ hơn, hãy hiểu thuật ngữ của Hadamard về một vấn đề "có vấn đề" - một vấn đề được đặt ra tốt nếu nó thỏa mãn ba điều kiện sau:

$x_i$ $y_i$
$x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
$f$

Đối với việc học có giám sát, những điều kiện này có thể bị vi phạm kể từ:

Một đầu ra riêng biệt có thể không tồn tại cho một đầu vào nhất định.
Có thể không có đủ thông tin trong các mẫu đào tạo để xây dựng ánh xạ đầu vào-đầu ra duy nhất (do việc chạy thuật toán học trên các mẫu đào tạo khác nhau dẫn đến các chức năng ánh xạ khác nhau).
Tiếng ồn trong dữ liệu làm tăng tính không chắc chắn cho quá trình tái cấu trúc có thể ảnh hưởng đến sự ổn định của nó.

Để giải quyết các vấn đề "không chính đáng" như vậy, Tikhonov đã đề xuất một phương pháp chính quy hóa để ổn định giải pháp bằng cách bao gồm một chức năng không âm, nhúng thông tin trước về giải pháp.

Dạng thông tin trước phổ biến nhất liên quan đến giả định rằng chức năng ánh xạ đầu vào-đầu ra trơn tru - tức là các đầu vào tương tự tạo ra các đầu ra tương tự.

$\lambda$ $f$ $\lambda$ $\infty$ $\infty$

$\lambda$

Một số ví dụ về các hàm chi phí thường xuyên như vậy là:

Hồi quy tuyến tính:

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Hồi quy logistic:

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

$\theta$ $x$ $h_\theta(x)$ $y$

$L_2$

Hiệu quả ròng của việc áp dụng chính quy hóa là giảm độ phức tạp của mô hình làm giảm sự phù hợp quá mức. Các cách tiếp cận khác để chính quy hóa (không được liệt kê trong các ví dụ ở trên) bao gồm sửa đổi các mô hình cấu trúc như hồi quy / phân loại Cây, cây được tăng cường, v.v. bằng cách bỏ các nút để tạo ra các cây đơn giản hơn. Gần đây, điều này đã được áp dụng trong cái gọi là "học sâu" bằng cách loại bỏ các kết nối giữa các nơ-ron trong mạng lưới thần kinh.

Một câu trả lời cụ thể cho Câu 3 là một số phương pháp tương tự như Rừng ngẫu nhiên (hoặc các phương thức bỏ phiếu tương tự) đạt được sự chính quy hóa do phương pháp vốn có của chúng, tức là bỏ phiếu và bầu phản hồi từ một bộ Cây không chính quy. Mặc dù các cây riêng lẻ có quá mức phù hợp, quá trình "lấy trung bình" kết quả của chúng sẽ ngăn chặn việc tập hợp quá mức vào tập huấn luyện.

BIÊN TẬP:

Khái niệm về tính đều đặn thuộc về lý thuyết tập hợp tiên đề, bạn có thể tham khảo bài viết này để biết về con trỏ - en.wikipedia.org/wiki/Axiom_of_uityity và khám phá chủ đề này hơn nữa nếu bạn quan tâm đến chi tiết.

Về chính quy hóa cho mạng lưới thần kinh: Khi điều chỉnh các trọng số trong khi chạy thuật toán lan truyền ngược, thuật ngữ chính quy được thêm vào hàm chi phí theo cách tương tự như các ví dụ cho hồi quy tuyến tính và logistic. Vì vậy, việc bổ sung thuật ngữ chính quy hóa ngăn chặn sự lan truyền trở lại đạt đến cực tiểu toàn cầu.

Bài viết mô tả chuẩn hóa hàng loạt cho các mạng thần kinh là - Chuẩn hóa hàng loạt: Tăng tốc đào tạo mạng sâu bằng cách giảm sự thay đổi đồng biến nội bộ, Ioffe, Szegedy, 2015. Người ta đã biết rằng backpropagation để đào tạo một mạng lưới thần kinh hoạt động tốt hơn khi các biến đầu vào được chuẩn hóa. Trong bài báo này, các tác giả đã áp dụng chuẩn hóa cho từng lô nhỏ được sử dụng trong Stochastic Gradient Descent để tránh vấn đề "biến mất độ dốc" khi đào tạo nhiều lớp của mạng lưới thần kinh. Thuật toán được mô tả trong bài báo của họ xử lý giá trị trung bình và phương sai được tính trong mỗi lô cho mỗi lớp kích hoạt là một bộ tham số khác được tối ưu hóa trong SGD lô nhỏ (ngoài các trọng số NN). Các kích hoạt sau đó được chuẩn hóa bằng cách sử dụng toàn bộ tập huấn luyện. Bạn có thể tham khảo bài viết của họ để biết chi tiết đầy đủ về thuật toán này. Bằng cách sử dụng phương pháp này, họ đã có thể tránh sử dụng bỏ học để chính quy hóa, và do đó họ cho rằng đây là một loại chính quy khác.

— Sandeep S. Sandhu
nguồn

cảm ơn vì câu trả lời tuyệt vời Bạn có thể giải thích một cách toán học một chút về cách các phương pháp như chuẩn hóa đạt được chính quy? Trong một cuộc nói chuyện của Goodfellow, ông nói rằng bất cứ điều gì khác biệt đều có thể đóng vai trò là người thường xuyên cho mạng lưới thần kinh. Ngoài ra, bạn có biết những gì thường xuyên? chúng chỉ có nghĩa là các mẫu hoặc có một số toán học đằng sau đó? cảm ơn lần nữa

— Rafael

Cảm ơn vi đa trả lơi. Tôi không thể nhớ cuộc nói chuyện. Trong mạng lưới thần kinh, chúng tôi thêm các lớp như bình thường hóa hàng loạt. Tôi muốn biết cuốc họ góp phần chính quy?

— Rafael

Chỉnh sửa để trả lời bình luận của bạn cũng như thêm lại câu trả lời được đưa ra trong các bình luận trước đó.

— Sandeep S. Sandhu

3

Câu hỏi 1

Tôi không biết về bất kỳ định nghĩa kinh điển nào, và các câu hỏi của bạn cho thấy thuật ngữ này được sử dụng với các ý nghĩa khác nhau. Hãy bắt đầu với các ví dụ đơn giản (sẽ trả lời câu hỏi 2).

Câu hỏi 2

Các hồi quy sườn núi có thể là một điểm khởi đầu tốt. Đây là một phương pháp chính quy giúp phá vỡ vấn đề được đưa ra bởi một ma trận số ít .

Tuy nhiên, "tham số chính quy" được xác định trong các phương pháp tăng cường độ dốc (theo ví dụ) ở đây để đảm bảo độ phức tạp thấp cho mô hình.

Câu 3

Chuẩn hóa như chính quy hóa có một ý nghĩa khác (và thuật ngữ này khá sai lệch). Nó biến một vấn đề phức tạp "từ quan điểm giảm độ dốc" thành một cái gì đó đơn giản hơn. Mặc dù không cần thiết để hiệu chỉnh mạng thần kinh, nhưng nó thực sự có ích trong quá trình hiệu chuẩn. (Tuy nhiên, lưu ý rằng nếu chúng ta có thể tìm thấy cực trị toàn cầu của các hàm tùy ý, thì không cần phải chuẩn hóa)

Câu 4

Chính quy hóa (như một cách để giảm độ phức tạp của một mô hình) được sử dụng để giảm sự phù hợp. Một mô hình càng ít phức tạp thì càng ít có khả năng phù hợp hơn.

Qua một bên

S. Watanabe sử dụng nghiêm ngặt thuật ngữ này trong nghiên cứu của mình.

— RUser4512
nguồn