Các định lý chính trong học máy (sâu) là gì?

45

Al Rahimi gần đây đã có một cuộc nói chuyện rất khiêu khích trong NIPS 2017 so sánh Machine Learning hiện tại với Alchemy. Một trong những tuyên bố của ông là chúng ta cần quay lại với những phát triển lý thuyết, để có những định lý đơn giản chứng minh kết quả nền tảng.

Khi anh ấy nói điều đó, tôi bắt đầu tìm kiếm các định lý chính cho ML, nhưng không thể tìm thấy một tài liệu tham khảo tốt có ý nghĩa về kết quả chính. Vì vậy, đây là câu hỏi của tôi: các định lý toán học chính (lý thuyết) hiện tại trong ML / DL là gì và chúng chứng minh điều gì? Tôi đoán công việc của Vapnik sẽ đi đâu đó ở đây. Là một bổ sung, các vấn đề mở lý thuyết chính là gì?

machine-learning deep-learning theory

— người học thống kê
nguồn

3

@Tim Thead này là một loại có số liệu thống kê.stackexchange.com/questions/2379 / 21 ("Những vấn đề lớn trong thống kê là gì?").

— whuber

2

Nó hơi rộng. Ít nhất bạn có thể chỉ định một tập hợp con của Machine Learning không? Nếu chúng ta giới hạn bản thân trong Deep Learning, hoặc ít nhất là học có giám sát, người ta có thể thử trả lời. Nhưng nếu bạn khăng khăng một cái gì đó như "Toán học máy học", một câu trả lời sẽ mất nhiều thời gian để viết.

— DeltaIV

3

Trong trường hợp tương tự ví dụ của @ whuber, tôi có xu hướng nói rằng điều này sẽ mở ở dạng CW, đặc biệt nếu điều này có thể được giới hạn trong một tập hợp con cụ thể của ML, như học tập có giám sát , như các yêu cầu DeltaV.

— gung - Phục hồi Monica

3

@DeltaIV Lưu ý rằng "Sâu" có trong tiêu đề.

— amip nói rằng Phục hồi Monica

4

Hiểu câu hỏi này là chủ đề của một loạt các bài giảng gần đây được tổ chức bởi David Donoho: xem số liệu385.github.io .

— dùng795305

43

Như tôi đã viết trong các bình luận, câu hỏi này có vẻ quá rộng đối với tôi, nhưng tôi sẽ cố gắng trả lời. Để thiết lập một số ranh giới, tôi sẽ bắt đầu với một bài toán nhỏ làm nền tảng cho hầu hết ML, và sau đó tập trung vào các kết quả gần đây cho DL.

Sự đánh đổi sai lệch thiên vị được đề cập đến trong vô số sách, khóa học, MOOCs, blog, tweet, v.v. trên ML, vì vậy chúng ta không thể bắt đầu mà không đề cập đến nó:

E [(Y - \hat{f} (X))^{2} | X = x_{0}] = σ_{ϵ}^{2} + {(E \hat{f} (x_{0}) - f (x_{0}))}^{2} + E [{(\hat{f} (x_{0}) - E \hat{f} (x_{0}))}^{2}] = {Irreducible error + Bias}^{2} + Variance

$\mathbb{E}[(Y-\hat{f}(X))^2|X=x_0]=\sigma_{\epsilon}^2+\left(\mathbb{E}\hat{f}(x_0)-f(x_0)\right)^2+\mathbb{E}\left[\left(\hat{f}(x_0)-\mathbb{E}\hat{f}(x_0)\right)^2\right]=\text{Irreducible error + Bias}^2 \text{ + Variance}$

Bằng chứng ở đây: https://web.stanford.edu/~hastie/ElemStatLearn/

Các Gauss-Markov Định lý (vâng, hồi quy tuyến tính sẽ vẫn là một phần quan trọng trong Machine Learning, không có vấn đề gì: đối phó với nó) làm rõ rằng, khi mô hình tuyến tính là đúng và một số giả định về thời hạn báo lỗi là hợp lệ, OLS có tối thiểu lỗi bình phương trung bình (mà trong biểu thức trên chỉ là $\text{Bias}^2 \text{ + Variance}$ ) chỉ trong số các ước lượng tuyến tính không thiên vị của mô hình tuyến tính. Do đó, cũng có thể có các công cụ ước tính tuyến tính với sai lệch (hoặc công cụ ước tính phi tuyến) có lỗi bình phương trung bình tốt hơn và do đó có lỗi dự đoán tốt hơn so với OLS. Và điều này mở đường cho tất cả các kho vũ khí chính quy (hồi quy sườn núi, LASSO, phân rã trọng lượng, v.v.) là một đặc điểm của ML. Một bằng chứng được đưa ra ở đây (và trong vô số sách khác): https://www.amazon.com/Linear-Statistic-Models-James-Stapleton/dp/0470231467

Có lẽ phù hợp hơn với sự bùng nổ của các phương pháp chính quy hóa, như Carlos Cinelli đã lưu ý trong các bình luận, và chắc chắn sẽ vui hơn khi tìm hiểu, là định lý James-Stein . Xét $n$ độc lập, cùng phương sai nhưng không có nghĩa là các biến ngẫu nhiên Gaussian trung bình:

X_{i} | μ_{i} \sim N (θ_{i}, σ^{2}), i = 1, \dots, n

$X_i|\mu_i\sim \mathcal{N}(\theta_i,\sigma^2), \quad i=1,\dots,n$

nói cách khác, chúng ta có một $n-$ thành phần Gaussian vector ngẫu nhiên . Chúng tôi có một mẫu từ và chúng tôi muốn ước tính . Công cụ ước tính MLE (và cả UMVUE) rõ ràng là . Hãy xem xét công cụ ước tính James-Stein $\mathbf{X}\sim \mathcal{N}(\boldsymbol{\theta},\sigma^2I)$ $\mathbf{x}$ $\mathbf{X}$ $\boldsymbol{\theta}$ $\hat{\boldsymbol{\theta}}_{MLE}=\mathbf{x}$

{\hat{θ}}_{J S} = (1 - \frac{(n - 2) σ^{2}}{| | x | |^{2}}) x

$\hat{\boldsymbol{\theta}}_{JS}= \left(1-\frac{(n-2)\sigma^2}{||\mathbf{x}||^2}\right)\mathbf{x}$

Rõ ràng, nếu , thu nhỏ ước lượng MLE về 0. Các James-Stein lý khẳng định rằng cho , Nghiêm thống trị , tức là, nó có MSE thấp . Pheraps đáng ngạc nhiên, thậm chí nếu chúng ta thu nhỏ đối với bất kỳ không đổi khác , vẫn chiếm ưu thế . Kể từ $(n-2)\sigma^2\leq||\mathbf{x}||^2$ $\hat{\boldsymbol{\theta}}_{JS}$ $n\geq4$ $\hat{\boldsymbol{\theta}}_{JS}$ $\hat{\boldsymbol{\theta}}_{MLE}$ $\forall \ \boldsymbol{\theta}$ $\boldsymbol{c}\neq \mathbf{0}$ $\hat{\boldsymbol{\theta}}_{JS}$ $\hat{\boldsymbol{\theta}}_{MLE}$ $X_i$ là độc lập, có vẻ kỳ lạ rằng, khi cố gắng ước tính chiều cao của ba người không liên quan, bao gồm một mẫu từ số táo được sản xuất ở Tây Ban Nha, có thể cải thiện trung bình ước tính của chúng tôi . Điểm mấu chốt ở đây là "trung bình": lỗi bình phương trung bình cho ước tính đồng thời của tất cả các thành phần của vectơ tham số nhỏ hơn, nhưng lỗi bình phương cho một hoặc nhiều thành phần có thể lớn hơn và thực tế nó thường xảy ra khi bạn có những quan sát "cực đoan".

Phát hiện ra rằng MLE, thực sự là công cụ ước tính "tối ưu" cho trường hợp ước lượng đơn biến, đã bị truất ngôi vì ước lượng đa biến, lúc đó khá sốc, và dẫn đến sự quan tâm lớn về thu hẹp, được gọi là chính quy theo cách nói ML. Người ta có thể lưu ý một số điểm tương đồng với các mô hình hỗn hợp và khái niệm "sức mạnh vay mượn": thực sự có một số kết nối, như được thảo luận ở đây

Quan điểm thống nhất về độ co ngót: mối quan hệ (nếu có) giữa nghịch lý của Stein, hồi quy sườn và hiệu ứng ngẫu nhiên trong các mô hình hỗn hợp là gì?

Tham khảo: James, W., Stein, C., Ước tính với tổn thất bậc hai . Kỷ yếu của Hội nghị chuyên đề Berkeley về Thống kê và Xác suất toán học lần thứ tư, Tập 1: Đóng góp cho Lý thuyết thống kê, 361--379, Nhà xuất bản Đại học California, Berkeley, Calif., 1961

Phân tích thành phần chính là chìa khóa cho chủ đề quan trọng về giảm kích thước và dựa trên Phân tích giá trị số đơn : cho mỗi ma trận thực (mặc dù định lý dễ dàng khái quát hóa cho ma trận phức tạp) chúng ta có thể viết $N\times p$ $X$

X = U D V^{T}

$X=UDV^T$

Trong đó có kích thước là trực giao, là ma trận đường chéo với các phần tử đường chéo không âm và có kích thước lại trực giao. Để biết bằng chứng và thuật toán về cách tính toán, hãy xem: Golub, G. và Van Loan, C. (1983), Tính toán ma trận , báo chí của Đại học John Hopkins, Baltimore. $U$ $N \times p$ $D$ $p \times p$ $U$ $p \times p$

Định lý Mercer là viên đá sáng lập cho rất nhiều phương pháp ML khác nhau: spline tấm mỏng, máy vectơ hỗ trợ, ước lượng Kriging của một quá trình ngẫu nhiên Gaussian, v.v. Về cơ bản, là một trong hai định lý đằng sau cái gọi là lừa nhân . Đặt là hàm hoặc hạt nhân liên tục đối xứng. nếu là semidefinite dương, thì nó thừa nhận một cơ sở trực giao của các hàm riêng tương ứng với các giá trị riêng không âm: $K(x,y):[a,b]\times[a,b]\to\mathbb{R}$ $K$

K (x, y) = \sum_{i = 1}^{\infty} γ_{i} ϕ_{i} (x) ϕ_{i} (y)

$K(x,y)=\sum_{i=1}^\infty\gamma_i \phi_i(x)\phi_i(y)$

Tầm quan trọng của định lý này đối với lý thuyết ML được chứng thực bằng số lượng tài liệu tham khảo trong các văn bản nổi tiếng, ví dụ như văn bản Rasmussen & Williams về các quy trình Gaussian .

Tham khảo: J. Mercer, Hàm của loại dương và âm, và mối liên hệ của chúng với lý thuyết về phương trình tích phân. Giao dịch triết học của Hiệp hội Hoàng gia Luân Đôn. Sê-ri A, Giấy tờ có đặc tính toán học hoặc vật lý, 209: 415-446, 1909

Ngoài ra còn có một bài trình bày đơn giản hơn trong Konrad Jörgens, toán tử tích phân tuyến tính , Pitman, Boston, 1982.

Định lý khác, cùng với định lý Mercer, đưa ra nền tảng lý thuyết của thủ thuật hạt nhân, là định lý representer . Giả sử bạn có một không gian mẫu và hạt nhân bán chính xác dương đối xứng . Cũng cho phép là RKHS kết hợp với . Cuối cùng, hãy để là một mẫu đào tạo. Định lý nói rằng trong số tất cả các hàm , tất cả đều thừa nhận một biểu diễn vô hạn về các hàm riêng của $\mathcal{X}$ $K: \mathcal{X} \times \mathcal{X}\to \mathbb{R}$ $\mathcal{H}_K$ $K$ $S=\{\mathbb{x}_i,y_i\}_{i=1}^n$ $f\in \mathcal{H}_K$ $K$ bởi vì định lý của Mercer, một trong những giảm thiểu rủi ro thường xuyên luôn có một biểu diễn hữu hạn trên cơ sở được hình thành bởi hạt nhân được đánh giá tại các điểm đào tạo , tức là $n$

min_{f \in H_{K}} \sum_{i = 1}^{n} L (y_{i}, f (x_{i})) + λ | | f | |_{H_{K}}^{2} = min_{{c_{j}}_{1}^{\infty}} \sum_{i = 1}^{n} L (y_{i}, \sum_{j}^{\infty} c_{j} ϕ_{j} (x_{i})) + λ \sum_{j}^{\infty} \frac{c_{j}^{2}}{γ_{j}} = \sum_{i = 1}^{n} α_{i} K (x, x_{i})

$\min_{f \in \mathcal{H}_K} \sum_{i=1}^n L(y_i,f(x_i))+\lambda||f||^2_{\mathcal{H}_K}=\min_{\{c_j\}_1^\infty} \sum_{i=1}^n L(y_i,\sum_j^\infty c_j\phi_j(x_i))+\lambda\sum_j^\infty \frac{c_j^2}{\gamma_j}=\sum_{i=1}^n\alpha_i K(x,x_i)$

(định lý là đẳng thức cuối cùng). Tài liệu tham khảo: Wahba, G. 1990, Mô hình Spline cho dữ liệu quan sát , SIAM, Philadelphia.

Các định lý xấp xỉ phổ quát đã được đã được trích dẫn bởi người dùng Tobias Windisch và ít nhiều có liên quan đến Machine Learning hơn là để phân tích chức năng, thậm chí nếu nó có thể không có vẻ như vậy trong nháy mắt đầu tiên. Vấn đề là định lý chỉ nói rằng một mạng như vậy tồn tại, nhưng:

nó không đưa ra bất kỳ mối tương quan nào giữa kích thước của lớp ẩn và một số phép đo độ phức tạp của hàm mục tiêu , ví dụ như Biến thể tổng. Nếu và cần thiết cho một lỗi cố định tăng theo cấp số nhân với , sau đó một lớp thần kinh ẩn đơn mạng sẽ là vô ích. $N$ $f(x)$ $f(x)=\sin(\omega x):[0,2\pi]\to[-1,1]$ $N$ $\epsilon$ $\omega$
nó không nói nếu mạng có thể học được . Nói cách khác, giả sử rằng đã cho và , chúng ta biết rằng kích thước NN sẽ xấp xỉ với dung sai cần thiết trong hypercube. Sau đó, bằng cách sử dụng các bộ huấn luyện có kích thước và một quy trình học tập, ví dụ như back-prop, chúng ta có đảm bảo rằng bằng cách tăng chúng ta có thể phục hồi không? $F(x)$ $f$ $\epsilon$ $N$ $f$ $M$ $M$ $F$
cuối cùng, và tệ hơn cả là tất cả, nó không nói gì về lỗi dự đoán của các mạng thần kinh. Những gì chúng ta đang thực sự quan tâm là một ước lượng sai số dự đoán, ít nhất trung bình trên tất cả các bộ đào tạo của kích thước . Định lý này không giúp gì về mặt này. $M$

Một điểm đau nhỏ hơn với phiên bản của định lý Hornik là nó không giữ các chức năng kích hoạt ReLU. Tuy nhiên, Bartlett đã chứng minh một phiên bản mở rộng bao gồm khoảng trống này.

Cho đến bây giờ, tôi đoán tất cả các định lý tôi coi là nổi tiếng với bất kỳ ai. Vì vậy, bây giờ là thời gian cho những thứ thú vị :-) Chúng ta hãy xem một vài định lý Deep Learning :

Giả định:

mạng nơ ron sâu (đối với cố định , là chức năng liên kết các đầu vào của mạng nơ ron với đầu ra của nó) và mất thường xuyên đều là tổng của tích cực chức năng đồng nhất của cùng một mức độ $\Phi(X,W)$ $W$ $\Phi_W(X)$ $\Theta(W)$
hàm mất là lồi và một khi được phân biệt thành , trong một tập hợp nhỏ gọn $L(Y,\Phi(X,W)$ $X$ $S$

Sau đó:

mọi mức tối thiểu cục bộ cho sao cho một mạng con của có trọng số bằng 0, là mức tối thiểu toàn cầu ( Định lý 1 ) $L(Y,\Phi(X,W))+\lambda\Theta(W)$ $\Phi(X,W)$
trên một kích thước mạng quan trọng, dòng dõi cục bộ sẽ luôn hội tụ đến mức tối thiểu toàn cầu từ bất kỳ khởi tạo nào ( Định lý 2 ).

Điều này rất thú vị: Các CNN chỉ được tạo từ các lớp chập, ReLU, gộp tối đa, ReLU được kết nối đầy đủ và các lớp tuyến tính là các hàm đồng nhất dương , trong khi nếu chúng ta bao gồm các hàm kích hoạt sigmoid, thì điều này không còn đúng nữa, điều này có thể giải thích phần nào hiệu suất trong một số ứng dụng của ReLU + gộp chung tối đa đối với sigmoids. Hơn nữa, các định lý chỉ giữ nếu cũng đồng nhất tích cực trong có cùng mức độ với . Bây giờ, một thực tế thú vị là hoặc quy tắc, mặc dù tích cực đồng nhất, không có cùng một mức độ (mức độ $\Theta$ $W$ $\Phi$ $l_1$ $l_2$ $\Phi$ $\Phi$ , trong trường hợp CNN đơn giản được đề cập trước đó, tăng theo số lượng lớp). Thay vào đó, các phương pháp chính quy hóa hiện đại hơn như chuẩn hóa hàng loạt và SGD đường dẫn thực hiện tương ứng với chức năng chính quy hóa đồng nhất tích cực có cùng mức độ với và bỏ học, trong khi không khớp chính xác khung này, có những điểm tương đồng mạnh mẽ với nó. Điều này có thể giải thích tại sao, để có được độ chính xác cao với CNN, chuẩn hóa và là không đủ, nhưng chúng ta cần sử dụng tất cả các loại thủ đoạn ma quỷ, như bỏ học và bình thường hóa hàng loạt! Theo hiểu biết tốt nhất của tôi, đây là điều gần nhất với lời giải thích về hiệu quả của việc chuẩn hóa hàng loạt, điều này rất mơ hồ, như Al Rahimi đã lưu ý chính xác trong bài nói chuyện của mình. $\Phi$ $l_1$ $l_2$

Một quan sát khác mà một số người đưa ra, dựa trên Định lý 1 , là nó có thể giải thích tại sao ReLU hoạt động tốt, ngay cả với vấn đề về các nơ-ron chết . Theo trực giác này, thực tế là, trong quá trình đào tạo, một số tế bào thần kinh ReLU "chết" (không kích hoạt và sau đó không bao giờ phục hồi từ đó, vì với , độ dốc của ReLU bằng 0) là "một tính năng, không phải là lỗi ", bởi vì nếu chúng tôi đạt đến mức tối thiểu và một mạng con đầy đủ đã chết, thì chúng tôi chắc chắn đã đạt đến mức tối thiểu toàn cầu (theo các giả thuyết của Định lý 1 $x<0$ ). Tôi có thể đang thiếu một cái gì đó, nhưng tôi nghĩ cách giải thích này là rất xa vời. Trước hết, trong quá trình đào tạo, ReLU có thể "chết" trước khi chúng tôi đạt được mức tối thiểu cục bộ. Thứ hai, phải chứng minh rằng khi các đơn vị ReLU "chết", họ luôn thực hiện nó trên một mạng con đầy đủ: trường hợp duy nhất đúng là khi bạn chỉ có một lớp ẩn, trong trường hợp đó là mỗi tế bào thần kinh duy nhất một mạng con. Nhưng nói chung tôi sẽ rất thận trọng khi xem "tế bào thần kinh chết" là một điều tốt.

Người giới thiệu:

B. Haeffele và R. Vidal, Sự lạc quan toàn cầu trong đào tạo mạng lưới thần kinh , Trong Hội nghị của IEEE về Tầm nhìn Máy tính và Nhận dạng Mẫu, 2017.

B. Haeffele và R. Vidal. Sự tối ưu toàn cầu trong yếu tố tenor, học sâu, và hơn thế nữa , arXiv, abs / 1506.07540, 2015.

Phân loại hình ảnh đòi hỏi các biểu diễn học bất biến (hoặc ít nhất là mạnh mẽ, nghĩa là rất nhạy cảm) đối với các biến đổi khác nhau như vị trí, tư thế, quan điểm, ánh sáng, biểu hiện, v.v ... thường có trong hình ảnh tự nhiên, nhưng không chứa thông tin cho nhiệm vụ phân loại. Điều tương tự để nhận dạng giọng nói: thay đổi về cao độ, âm lượng, tốc độ, giọng nói. vv không nên dẫn đến một sự thay đổi trong phân loại của từ. Các hoạt động như tích chập, gộp tối đa, gộp trung bình, v.v., được sử dụng trong CNN, có chính xác mục tiêu này, vì vậy chúng tôi hy vọng rằng chúng sẽ hoạt động cho các ứng dụng này. Nhưng chúng ta có định lý để hỗ trợ trực giác này không? Có một định lý bất biến dịch dọc, mặc dù có tên, không liên quan gì đến dịch theo hướng dọc, nhưng về cơ bản, đó là kết quả cho thấy các tính năng học được trong các lớp sau ngày càng bất biến, khi số lượng lớp tăng lên. Điều này trái ngược với một định lý bất biến dịch ngang cũ hơn , tuy nhiên áp dụng cho các mạng tán xạ, nhưng không dành cho CNN. Định lý là rất kỹ thuật, tuy nhiên:

giả sử (hình ảnh đầu vào của bạn) có thể tích hợp vuông $f$
giả sử bộ lọc của bạn bắt đầu với toán tử dịch , ánh xạ hình ảnh đầu vào thành bản sao được dịch của chính nó . Một hạt nhân chập (bộ lọc) đã học thỏa mãn giả thuyết này. $T_t$ $f$ $T_t f$
giả sử tất cả các bộ lọc, phi tuyến và gộp trong mạng của bạn đáp ứng một điều kiện được gọi là điều kiện chấp nhận yếu , về cơ bản là một số điều kiện thường xuyên và giới hạn yếu. Những điều kiện này được thỏa mãn bởi hạt nhân tích chập đã học (miễn là một số thao tác chuẩn hóa được thực hiện trên mỗi lớp), ReLU, sigmoid, tanh, v.v., phi tuyến tính và bằng cách gộp chung, nhưng không phải bằng cách gộp chung. Vì vậy, nó bao gồm một số (không phải tất cả) kiến trúc CNN trong thế giới thực.
Giả sử cuối cùng rằng mỗi lớp có hệ số gộp , nghĩa là gộp chung được áp dụng trong mỗi lớp và loại bỏ thông tin một cách hiệu quả. Điều kiện cũng đủ cho phiên bản yếu hơn của định lý. $n$ $S_n> 1$ $S_n\geq 1$

Chỉ ra với đầu ra của lớp của CNN, khi đầu vào là . Rồi cuối cùng: $\Phi^n(f)$ $n$ $f$

lim_{n \to \infty} | | | Φ^{n} (T_{f} f) - Φ^{n} (f) | | | = 0

$\lim_{n\to\infty}|||\Phi^n(T_f f)-\Phi^n(f)|||=0$

(ba thanh không phải là một lỗi) về cơ bản có nghĩa là mỗi lớp học các tính năng ngày càng trở nên bất biến và trong giới hạn của một mạng sâu vô hạn, chúng ta có một kiến trúc bất biến hoàn hảo. Vì CNN có số lớp hữu hạn, chúng không phải là bất biến dịch hoàn hảo, đây là điều nổi tiếng đối với các học viên.

Tham khảo: T. Wiatowski và H. Bolcskei, Một lý thuyết toán học về mạng lưới thần kinh chuyển đổi sâu để khai thác tính năng , arXiv: 1512,06293v3 .

Để kết luận, rất nhiều giới hạn cho lỗi tổng quát hóa của Mạng nơ-ron sâu dựa trên kích thước của Pinterestnik-Chervonkensis hoặc trên độ phức tạp Rademacher tăng theo số lượng tham số (một số thậm chí theo cấp số nhân), có nghĩa là họ không thể giải thích tại sao DNN hoạt động tốt như vậy trong thực tế ngay cả khi số lượng tham số lớn hơn đáng kể so với số lượng mẫu đào tạo. Vì thực tế, lý thuyết VC không hữu ích lắm trong Deep Learning.

Ngược lại, một số kết quả từ năm ngoái đã ràng buộc lỗi tổng quát hóa của bộ phân loại DNN với số lượng không phụ thuộc vào độ sâu và kích thước của mạng thần kinh, nhưng chỉ phụ thuộc vào cấu trúc của tập huấn luyện và không gian đầu vào. Theo một số giả định kỹ thuật khá lớn về quy trình học tập, trên tập huấn luyện và không gian đầu vào, nhưng với rất ít giả định về DNN (đặc biệt là các CNN được bảo hiểm đầy đủ), sau đó với xác suất ít nhất là , chúng tôi có $1-\delta$

GE \leq \sqrt{2 \log 2 N_{y} \frac{N_{γ}}{m}} + \sqrt{\frac{2 \log (1 / δ)}{m}}

$\text{GE} \leq \sqrt{2\log{2}N_y\frac{\mathcal{N_{\gamma}}}{m}}+\sqrt{\frac{2\log{(1/\delta)}}{m}}$

Ở đâu:

$\text{GE}$ là lỗi tổng quát hóa, được định nghĩa là sự khác biệt giữa tổn thất dự kiến (tổn thất trung bình của phân loại đã học trên tất cả các điểm kiểm tra có thể) và tổn thất theo kinh nghiệm (chỉ là lỗi tập huấn ol 'tốt)
$N_y$ là số lớp
$m$ là kích thước của tập huấn luyện
$\mathcal{N_{\gamma}}$ là số bao phủ của dữ liệu, một đại lượng liên quan đến cấu trúc của không gian đầu vào và sự phân tách tối thiểu giữa các điểm của các lớp khác nhau trong tập huấn luyện. Tài liệu tham khảo:

J. Sokolic, R. Giryes, G. Sapiro và M. Coleues. Lỗi tổng quát hóa của phân loại bất biến . Trong AISTATS, 2017

— DeltaIV
nguồn

2

+1. Câu trả lời tuyệt vời, phần cuối cùng rất hấp dẫn. Trong phần đầu tiên, định lý Mercer trông giống như SVD mà bạn đã trình bày ở trên.

— amip nói rằng Phục hồi Monica

1

@amoeba, bạn nói đúng, nhưng 1) không phải tất cả các độc giả cũng am hiểu toán học như bạn, rằng họ sẽ nhận ra ngay lập tức giữa SVD, mở rộng Karhunen- Loeve và định lý Mercer. Ngoài ra 2) định lý khác từ Phân tích chức năng "tăng sức mạnh" cho mánh khóe hạt nhân và tôi chọn không bao gồm, khó giải thích hơn định lý của Mercer và tôi đã trả lại thứ bảy của mình :-) Có lẽ tôi sẽ thêm nó vào ngày mai!

— DeltaIV

1

Gauss Markov dường như lạc lõng, chưa bao giờ thấy ai quan tâm đến BLUE trong cộng đồng ML.

— Carlos Cinelli

2

Tôi đồng ý rằng theo nguyên tắc chung, tài liệu tham khảo gốc (cổ) thường có ký hiệu tẻ nhạt. Điều đó nói rằng, giấy của Mercer thực sự hiện đại đáng ngạc nhiên ở khía cạnh đó và tôi đã thêm nó chính xác vì điều đó. :) (tôi đã nói ban đầu, một câu trả lời này rất tốt, đây chỉ là một bài bình luận sau khi phiếu bầu tán thành)

— usεr11852 nói Khôi phục Monic

2

Tôi thích định lý của Mercer ở đây, đừng loại bỏ nó. Và tại sao không có cả hai liên kết? Chỉ cần thêm smth như See [here] for a modern exposition, hoặc ngược lại, "cho giấy gốc".

— amip nói rằng Phục hồi Monica

11

Tôi nghĩ rằng định lý sau đây mà bạn ám chỉ được coi là khá cơ bản trong học tập thống kê.

Định lý (Vapnik và Chervonenkis, 1971) Gọi là lớp giả thuyết về các hàm từ miền đến và để hàm mất là . Sau đó, sau đây là tương đương: $H$ $X$ $\{0, 1\}$ $0 − 1$

$H$ có tính chất hội tụ đồng nhất.
$H$ là PAC có thể học được.
$H$ có kích thước VC hữu hạn.

Được chứng minh trong một phiên bản định lượng ở đây:

VN Vapnik và AY Chervonenkis: Về sự hội tụ thống nhất của tần số tương đối của các sự kiện với xác suất của chúng. Lý thuyết xác suất và ứng dụng của nó, 16 (2): 264 212280, 1971.

Phiên bản được xây dựng ở trên cùng với một giải thích tốt về các kết quả khác từ lý thuyết học tập có sẵn ở đây :

Shalev-Shwartz, Shai và Shai Ben-David. Hiểu về máy học: Từ lý thuyết đến thuật toán. Báo chí đại học Cambridge, 2014.

— Máy epsilon
nguồn

6

Kernel Trick là một ý tưởng chung được sử dụng ở nhiều nơi và xuất phát từ rất nhiều phép toán trừu tượng về Hilbert Spaces. Có quá nhiều lý thuyết để tôi gõ (sao chép ...) vào một câu trả lời ở đây, nhưng nếu bạn đọc lướt qua điều này, bạn có thể có một ý tưởng tốt về nền tảng nghiêm ngặt của nó:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf

— Taimur
nguồn

4

Yêu thích của tôi là bất đẳng thức Kraft.

Định lý: Đối với bất kỳ phương pháp mô tả cho bảng chữ cái hữu hạn , từ mã có độ dài phải thỏa mãn bất đẳng thức . $C$ $A = \{1,\dots, m\}$ $L_C(1), \dots, L_C(2)$ $\sum_{x \in A} 2 ^{-L_C(x)} \leq 1$

Bất đẳng thức này liên quan đến nén với mật độ xác suất : được cung cấp một mã, độ dài của một kết quả được đại diện bởi mã đó là xác suất nhật ký âm của một mô hình được xác định bởi mã.

Hơn nữa, định lý bữa trưa miễn phí cho học máy có một anh chị em ít được biết đến hơn với định lý không nén siêu, trong đó tuyên bố rằng không phải tất cả các chuỗi có thể được nén.

— bayerj
nguồn

4

Tôi sẽ không gọi nó là một định lý chính , nhưng tôi nghĩ rằng sau đây (đôi khi được gọi là định lý gần đúng phổ quát) là một định lý thú vị (và ít nhất là đối với tôi đáng ngạc nhiên) vì nó nói lên sức mạnh gần đúng của các mạng thần kinh chuyển tiếp.

Định lý: Đặt là một hàm liên tục tăng không đáng kể và đơn điệu. Đối với bất kỳ hàm continuos và bất kỳ , tồn tại một tích phân và một tri giác đa lớp với một lớp ẩn có Neurons có là kích hoạt chức năng sao cho $\sigma$ $f:[0,1]^m\to\mathbb{R}$ $\epsilon>0$ $N$ $F$ $N$ $\sigma$

| F (x) - f (x) | \leq ϵ

$|F(x)-f(x)|\le\epsilon$ cho tất cả .

x \in [0, 1]^{m}

$x\in[0,1]^m$

Tất nhiên, vì đây là một tuyên bố về sự tồn tại , tác động của nó đối với các học viên là không đáng kể.

Một bằng chứng có thể được tìm thấy trong Hornik, Khả năng xấp xỉ của các mạng truyền dẫn đa cấp, Mạng thần kinh 4 (2), 1991,

— Tobias Windisch
nguồn

5

Định lý này là một chút không thú vị vì nó không đặc biệt đối với mạng lưới thần kinh. Nhiều lớp hàm khác chia sẻ các thuộc tính gần đúng (và đôi khi mạnh hơn). Xem ví dụ định lý Stone-Weierstrass. Một kết quả thú vị hơn sẽ là tính nhất quán của hồi quy mạng thần kinh trong một khung chung. Ngoài ra, phải có giới hạn đã biết về lỗi tổng quát hóa trung bình về độ phức tạp của mạng và kích thước của mẫu đào tạo.

— Olivier

1

@Olivier: Tôi hoàn toàn đồng ý. Nhưng mặc dù định lý này không dành riêng cho mạng lưới thần kinh, tôi vẫn thấy nó là tuyên bố, bằng chứng nghiêm ngặt và ý nghĩa của nó thú vị. Chẳng hạn, nó nói rằng miễn là bạn đang sử dụng chức năng kích hoạt có các thuộc tính đã nêu ở trên, khả năng gần đúng của mạng là như nhau (nói đại khái). Hoặc, nó nói rằng các mạng lưới thần kinh được cắt tỉa quá mức vì bạn có thể học được rất nhiều với một lớp ẩn.

— Tobias Windisch

1

Nó không nói chính xác điều đó. Nó chỉ nói rằng tồn tại một mạng lưới thần kinh với một lớp ẩn có thể đại diện cho , nhưng nó không cho bạn biết bất cứ điều gì về cách phát triển với , ví dụ, hoặc với một số đo độ phức tạp của (ví dụ: tổng biến thiên của nó ). Nó không cho bạn biết nếu bạn có thể các trọng số của mạng, dữ liệu đã cho. Bạn sẽ thấy rằng trong nhiều trường hợp thú vị là theo cấp số nhân lớn hơn cho một mạng lớp ẩn hơn cho đa (sâu) mạng. Đó là lý do tại sao không ai sử dụng một mạng lớp ẩn cho ImageNet hoặc Kaggle.

f

$f$

N

$N$

m

$m$

f

$f$

l e a r n

$learn$

N

$N$

— DeltaIV

@DeltaIV: Có một lỗi đánh máy trong câu cuối cùng của nhận xét trước đây của tôi: từ "học" nên thực sự là "gần đúng" (nếu không, tuyên bố của tôi về "quá mức" sẽ không có nghĩa). Cảm ơn bạn đã gợi ý!

— Tobias Windisch

Vâng, tôi đã giải thích rằng theo nghĩa "gần đúng". Quan điểm của tôi là ngay cả khi bạn biết rằng về mặt lý thuyết bạn có thể xấp xỉ bất kỳ chức năng nào (trên một hypercube bị ràng buộc) với một lớp NN ẩn, trong thực tế, nó vô dụng trong nhiều trường hợp. Một ví dụ khác: Các quy trình Gaussian với hạt nhân hàm mũ bình phương có thuộc tính gần đúng phổ quát, nhưng chúng không loại bỏ tất cả các phương pháp hồi quy khác, vì thực tế là đối với một số vấn đề, số lượng mẫu cần cho xấp xỉ chính xác tăng theo cấp số nhân.

— DeltaIV

2

Một bài viết hay tập trung vào câu hỏi này (cụ thể là học sâu hơn là các định lý học máy nói chung) ở đây:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

Nó đưa ra một bản tóm tắt dễ tiếp cận của các định lý mới nổi chính cho khả năng của các mạng lưới thần kinh sâu rộng để khái quát hóa rất tốt.

— Toby Collins
nguồn