Như tôi đã viết trong các bình luận, câu hỏi này có vẻ quá rộng đối với tôi, nhưng tôi sẽ cố gắng trả lời. Để thiết lập một số ranh giới, tôi sẽ bắt đầu với một bài toán nhỏ làm nền tảng cho hầu hết ML, và sau đó tập trung vào các kết quả gần đây cho DL.
Sự đánh đổi sai lệch thiên vị được đề cập đến trong vô số sách, khóa học, MOOCs, blog, tweet, v.v. trên ML, vì vậy chúng ta không thể bắt đầu mà không đề cập đến nó:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
Bằng chứng ở đây: https://web.stanford.edu/~hastie/ElemStatLearn/
Các Gauss-Markov Định lý (vâng, hồi quy tuyến tính sẽ vẫn là một phần quan trọng trong Machine Learning, không có vấn đề gì: đối phó với nó) làm rõ rằng, khi mô hình tuyến tính là đúng và một số giả định về thời hạn báo lỗi là hợp lệ, OLS có tối thiểu lỗi bình phương trung bình (mà trong biểu thức trên chỉ là Bias2 + Variance ) chỉ trong số các ước lượng tuyến tính không thiên vị của mô hình tuyến tính. Do đó, cũng có thể có các công cụ ước tính tuyến tính với sai lệch (hoặc công cụ ước tính phi tuyến) có lỗi bình phương trung bình tốt hơn và do đó có lỗi dự đoán tốt hơn so với OLS. Và điều này mở đường cho tất cả các kho vũ khí chính quy (hồi quy sườn núi, LASSO, phân rã trọng lượng, v.v.) là một đặc điểm của ML. Một bằng chứng được đưa ra ở đây (và trong vô số sách khác):
https://www.amazon.com/Linear-Statistic-Models-James-Stapleton/dp/0470231467
Có lẽ phù hợp hơn với sự bùng nổ của các phương pháp chính quy hóa, như Carlos Cinelli đã lưu ý trong các bình luận, và chắc chắn sẽ vui hơn khi tìm hiểu, là định lý James-Stein . Xét n độc lập, cùng phương sai nhưng không có nghĩa là các biến ngẫu nhiên Gaussian trung bình:
Xi|μi∼N(θi,σ2),i=1,…,n
nói cách khác, chúng ta có một n− thành phần Gaussian vector ngẫu nhiên . Chúng tôi có một mẫu từ và chúng tôi muốn ước tính . Công cụ ước tính MLE (và cả UMVUE) rõ ràng là . Hãy xem xét công cụ ước tính James-SteinX∼N(θ,σ2I)xXθθ M L E = xθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Rõ ràng, nếu , thu nhỏ ước lượng MLE về 0. Các James-Stein lý khẳng định rằng cho , Nghiêm thống trị , tức là, nó có MSE thấp . Pheraps đáng ngạc nhiên, thậm chí nếu chúng ta thu nhỏ đối với bất kỳ không đổi khác , vẫn chiếm ưu thế . Kể từ(n−2)σ2≤||x||2θ J Sθ^JS n≥4θ J S θ M L E ∀ θ c ≠ 0 θ J S θ M L E X iθ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXilà độc lập, có vẻ kỳ lạ rằng, khi cố gắng ước tính chiều cao của ba người không liên quan, bao gồm một mẫu từ số táo được sản xuất ở Tây Ban Nha, có thể cải thiện trung bình ước tính của chúng tôi . Điểm mấu chốt ở đây là "trung bình": lỗi bình phương trung bình cho ước tính đồng thời của tất cả các thành phần của vectơ tham số nhỏ hơn, nhưng lỗi bình phương cho một hoặc nhiều thành phần có thể lớn hơn và thực tế nó thường xảy ra khi bạn có những quan sát "cực đoan".
Phát hiện ra rằng MLE, thực sự là công cụ ước tính "tối ưu" cho trường hợp ước lượng đơn biến, đã bị truất ngôi vì ước lượng đa biến, lúc đó khá sốc, và dẫn đến sự quan tâm lớn về thu hẹp, được gọi là chính quy theo cách nói ML. Người ta có thể lưu ý một số điểm tương đồng với các mô hình hỗn hợp và khái niệm "sức mạnh vay mượn": thực sự có một số kết nối, như được thảo luận ở đây
Quan điểm thống nhất về độ co ngót: mối quan hệ (nếu có) giữa nghịch lý của Stein, hồi quy sườn và hiệu ứng ngẫu nhiên trong các mô hình hỗn hợp là gì?
Tham khảo: James, W., Stein, C., Ước tính với tổn thất bậc hai . Kỷ yếu của Hội nghị chuyên đề Berkeley về Thống kê và Xác suất toán học lần thứ tư, Tập 1: Đóng góp cho Lý thuyết thống kê, 361--379, Nhà xuất bản Đại học California, Berkeley, Calif., 1961
Phân tích thành phần chính là chìa khóa cho chủ đề quan trọng về giảm kích thước và dựa trên Phân tích giá trị số đơn : cho mỗi ma trận thực (mặc dù định lý dễ dàng khái quát hóa cho ma trận phức tạp) chúng ta có thể viếtN×pX
X=UDVT
Trong đó có kích thước là trực giao, là ma trận đường chéo với các phần tử đường chéo không âm và có kích thước lại trực giao. Để biết bằng chứng và thuật toán về cách tính toán, hãy xem: Golub, G. và Van Loan, C. (1983), Tính toán ma trận , báo chí của Đại học John Hopkins, Baltimore.UN×pDp×pUp×p
Định lý Mercer là viên đá sáng lập cho rất nhiều phương pháp ML khác nhau: spline tấm mỏng, máy vectơ hỗ trợ, ước lượng Kriging của một quá trình ngẫu nhiên Gaussian, v.v. Về cơ bản, là một trong hai định lý đằng sau cái gọi là lừa nhân . Đặt là hàm hoặc hạt nhân liên tục đối xứng. nếu là semidefinite dương, thì nó thừa nhận một cơ sở trực giao của các hàm riêng tương ứng với các giá trị riêng không âm:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
Tầm quan trọng của định lý này đối với lý thuyết ML được chứng thực bằng số lượng tài liệu tham khảo trong các văn bản nổi tiếng, ví dụ như văn bản Rasmussen & Williams về các quy trình Gaussian .
Tham khảo: J. Mercer, Hàm của loại dương và âm, và mối liên hệ của chúng với lý thuyết về phương trình tích phân. Giao dịch triết học của Hiệp hội Hoàng gia Luân Đôn. Sê-ri A, Giấy tờ có đặc tính toán học hoặc vật lý, 209: 415-446, 1909
Ngoài ra còn có một bài trình bày đơn giản hơn trong Konrad Jörgens, toán tử tích phân tuyến tính , Pitman, Boston, 1982.
Định lý khác, cùng với định lý Mercer, đưa ra nền tảng lý thuyết của thủ thuật hạt nhân, là định lý representer . Giả sử bạn có một không gian mẫu và hạt nhân bán chính xác dương đối xứng . Cũng cho phép là RKHS kết hợp với . Cuối cùng, hãy để là một mẫu đào tạo. Định lý nói rằng trong số tất cả các hàm , tất cả đều thừa nhận một biểu diễn vô hạn về các hàm riêng củaXK:X×X→RHKKS={xi,yi}ni=1f∈HKKbởi vì định lý của Mercer, một trong những giảm thiểu rủi ro thường xuyên luôn có một biểu diễn hữu hạn trên cơ sở được hình thành bởi hạt nhân được đánh giá tại các điểm đào tạo , tức làn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(định lý là đẳng thức cuối cùng). Tài liệu tham khảo: Wahba, G. 1990, Mô hình Spline cho dữ liệu quan sát , SIAM, Philadelphia.
Các định lý xấp xỉ phổ quát đã được đã được trích dẫn bởi người dùng Tobias Windisch và ít nhiều có liên quan đến Machine Learning hơn là để phân tích chức năng, thậm chí nếu nó có thể không có vẻ như vậy trong nháy mắt đầu tiên. Vấn đề là định lý chỉ nói rằng một mạng như vậy tồn tại, nhưng:
- nó không đưa ra bất kỳ mối tương quan nào giữa kích thước của lớp ẩn và một số phép đo độ phức tạp của hàm mục tiêu , ví dụ như Biến thể tổng. Nếu và cần thiết cho một lỗi cố định tăng theo cấp số nhân với , sau đó một lớp thần kinh ẩn đơn mạng sẽ là vô ích.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- nó không nói nếu mạng có thể học được . Nói cách khác, giả sử rằng đã cho và , chúng ta biết rằng kích thước NN sẽ xấp xỉ với dung sai cần thiết trong hypercube. Sau đó, bằng cách sử dụng các bộ huấn luyện có kích thước và một quy trình học tập, ví dụ như back-prop, chúng ta có đảm bảo rằng bằng cách tăng chúng ta có thể phục hồi không?F(x)fϵNfMMF
- cuối cùng, và tệ hơn cả là tất cả, nó không nói gì về lỗi dự đoán của các mạng thần kinh. Những gì chúng ta đang thực sự quan tâm là một ước lượng sai số dự đoán, ít nhất trung bình trên tất cả các bộ đào tạo của kích thước . Định lý này không giúp gì về mặt này.M
Một điểm đau nhỏ hơn với phiên bản của định lý Hornik là nó không giữ các chức năng kích hoạt ReLU. Tuy nhiên, Bartlett đã chứng minh một phiên bản mở rộng bao gồm khoảng trống này.
Cho đến bây giờ, tôi đoán tất cả các định lý tôi coi là nổi tiếng với bất kỳ ai. Vì vậy, bây giờ là thời gian cho những thứ thú vị :-) Chúng ta hãy xem một vài định lý Deep Learning :
Giả định:
- mạng nơ ron sâu (đối với cố định , là chức năng liên kết các đầu vào của mạng nơ ron với đầu ra của nó) và mất thường xuyên đều là tổng của tích cực chức năng đồng nhất của cùng một mức độΦ(X,W)WΦW(X)Θ(W)
- hàm mất là lồi và một khi được phân biệt thành , trong một tập hợp nhỏ gọnL(Y,Φ(X,W)XS
Sau đó:
- mọi mức tối thiểu cục bộ cho sao cho một mạng con của có trọng số bằng 0, là mức tối thiểu toàn cầu ( Định lý 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- trên một kích thước mạng quan trọng, dòng dõi cục bộ sẽ luôn hội tụ đến mức tối thiểu toàn cầu từ bất kỳ khởi tạo nào ( Định lý 2 ).
Điều này rất thú vị: Các CNN chỉ được tạo từ các lớp chập, ReLU, gộp tối đa, ReLU được kết nối đầy đủ và các lớp tuyến tính là các hàm đồng nhất dương , trong khi nếu chúng ta bao gồm các hàm kích hoạt sigmoid, thì điều này không còn đúng nữa, điều này có thể giải thích phần nào hiệu suất trong một số ứng dụng của ReLU + gộp chung tối đa đối với sigmoids. Hơn nữa, các định lý chỉ giữ nếu cũng đồng nhất tích cực trong có cùng mức độ với . Bây giờ, một thực tế thú vị là hoặc quy tắc, mặc dù tích cực đồng nhất, không có cùng một mức độ (mức độΘWΦl1l2ΦΦ, trong trường hợp CNN đơn giản được đề cập trước đó, tăng theo số lượng lớp). Thay vào đó, các phương pháp chính quy hóa hiện đại hơn như chuẩn hóa hàng loạt và SGD đường dẫn thực hiện tương ứng với chức năng chính quy hóa đồng nhất tích cực có cùng mức độ với và bỏ học, trong khi không khớp chính xác khung này, có những điểm tương đồng mạnh mẽ với nó. Điều này có thể giải thích tại sao, để có được độ chính xác cao với CNN, chuẩn hóa và là không đủ, nhưng chúng ta cần sử dụng tất cả các loại thủ đoạn ma quỷ, như bỏ học và bình thường hóa hàng loạt! Theo hiểu biết tốt nhất của tôi, đây là điều gần nhất với lời giải thích về hiệu quả của việc chuẩn hóa hàng loạt, điều này rất mơ hồ, như Al Rahimi đã lưu ý chính xác trong bài nói chuyện của mình.Φl1l2
Một quan sát khác mà một số người đưa ra, dựa trên Định lý 1 , là nó có thể giải thích tại sao ReLU hoạt động tốt, ngay cả với vấn đề về các nơ-ron chết . Theo trực giác này, thực tế là, trong quá trình đào tạo, một số tế bào thần kinh ReLU "chết" (không kích hoạt và sau đó không bao giờ phục hồi từ đó, vì với , độ dốc của ReLU bằng 0) là "một tính năng, không phải là lỗi ", bởi vì nếu chúng tôi đạt đến mức tối thiểu và một mạng con đầy đủ đã chết, thì chúng tôi chắc chắn đã đạt đến mức tối thiểu toàn cầu (theo các giả thuyết của Định lý 1x<0). Tôi có thể đang thiếu một cái gì đó, nhưng tôi nghĩ cách giải thích này là rất xa vời. Trước hết, trong quá trình đào tạo, ReLU có thể "chết" trước khi chúng tôi đạt được mức tối thiểu cục bộ. Thứ hai, phải chứng minh rằng khi các đơn vị ReLU "chết", họ luôn thực hiện nó trên một mạng con đầy đủ: trường hợp duy nhất đúng là khi bạn chỉ có một lớp ẩn, trong trường hợp đó là mỗi tế bào thần kinh duy nhất một mạng con. Nhưng nói chung tôi sẽ rất thận trọng khi xem "tế bào thần kinh chết" là một điều tốt.
Người giới thiệu:
B. Haeffele và R. Vidal, Sự lạc quan toàn cầu trong đào tạo mạng lưới thần kinh , Trong Hội nghị của IEEE về Tầm nhìn Máy tính và Nhận dạng Mẫu, 2017.
B. Haeffele và R. Vidal. Sự tối ưu toàn cầu trong yếu tố tenor, học sâu, và hơn thế nữa , arXiv, abs / 1506.07540, 2015.
Phân loại hình ảnh đòi hỏi các biểu diễn học bất biến (hoặc ít nhất là mạnh mẽ, nghĩa là rất nhạy cảm) đối với các biến đổi khác nhau như vị trí, tư thế, quan điểm, ánh sáng, biểu hiện, v.v ... thường có trong hình ảnh tự nhiên, nhưng không chứa thông tin cho nhiệm vụ phân loại. Điều tương tự để nhận dạng giọng nói: thay đổi về cao độ, âm lượng, tốc độ, giọng nói. vv không nên dẫn đến một sự thay đổi trong phân loại của từ. Các hoạt động như tích chập, gộp tối đa, gộp trung bình, v.v., được sử dụng trong CNN, có chính xác mục tiêu này, vì vậy chúng tôi hy vọng rằng chúng sẽ hoạt động cho các ứng dụng này. Nhưng chúng ta có định lý để hỗ trợ trực giác này không? Có một định lý bất biến dịch dọc, mặc dù có tên, không liên quan gì đến dịch theo hướng dọc, nhưng về cơ bản, đó là kết quả cho thấy các tính năng học được trong các lớp sau ngày càng bất biến, khi số lượng lớp tăng lên. Điều này trái ngược với một định lý bất biến dịch ngang cũ hơn , tuy nhiên áp dụng cho các mạng tán xạ, nhưng không dành cho CNN. Định lý là rất kỹ thuật, tuy nhiên:
- giả sử (hình ảnh đầu vào của bạn) có thể tích hợp vuôngf
- giả sử bộ lọc của bạn bắt đầu với toán tử dịch , ánh xạ hình ảnh đầu vào thành bản sao được dịch của chính nó . Một hạt nhân chập (bộ lọc) đã học thỏa mãn giả thuyết này.TtfTtf
- giả sử tất cả các bộ lọc, phi tuyến và gộp trong mạng của bạn đáp ứng một điều kiện được gọi là điều kiện chấp nhận yếu , về cơ bản là một số điều kiện thường xuyên và giới hạn yếu. Những điều kiện này được thỏa mãn bởi hạt nhân tích chập đã học (miễn là một số thao tác chuẩn hóa được thực hiện trên mỗi lớp), ReLU, sigmoid, tanh, v.v., phi tuyến tính và bằng cách gộp chung, nhưng không phải bằng cách gộp chung. Vì vậy, nó bao gồm một số (không phải tất cả) kiến trúc CNN trong thế giới thực.
- Giả sử cuối cùng rằng mỗi lớp có hệ số gộp , nghĩa là gộp chung được áp dụng trong mỗi lớp và loại bỏ thông tin một cách hiệu quả. Điều kiện cũng đủ cho phiên bản yếu hơn của định lý.nSn>1Sn≥1
Chỉ ra với đầu ra của lớp của CNN, khi đầu vào là . Rồi cuối cùng:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(ba thanh không phải là một lỗi) về cơ bản có nghĩa là mỗi lớp học các tính năng ngày càng trở nên bất biến và trong giới hạn của một mạng sâu vô hạn, chúng ta có một kiến trúc bất biến hoàn hảo. Vì CNN có số lớp hữu hạn, chúng không phải là bất biến dịch hoàn hảo, đây là điều nổi tiếng đối với các học viên.
Tham khảo: T. Wiatowski và H. Bolcskei, Một lý thuyết toán học về mạng lưới thần kinh chuyển đổi sâu để khai thác tính năng , arXiv: 1512,06293v3 .
Để kết luận, rất nhiều giới hạn cho lỗi tổng quát hóa của Mạng nơ-ron sâu dựa trên kích thước của Pinterestnik-Chervonkensis hoặc trên độ phức tạp Rademacher tăng theo số lượng tham số (một số thậm chí theo cấp số nhân), có nghĩa là họ không thể giải thích tại sao DNN hoạt động tốt như vậy trong thực tế ngay cả khi số lượng tham số lớn hơn đáng kể so với số lượng mẫu đào tạo. Vì thực tế, lý thuyết VC không hữu ích lắm trong Deep Learning.
Ngược lại, một số kết quả từ năm ngoái đã ràng buộc lỗi tổng quát hóa của bộ phân loại DNN với số lượng không phụ thuộc vào độ sâu và kích thước của mạng thần kinh, nhưng chỉ phụ thuộc vào cấu trúc của tập huấn luyện và không gian đầu vào. Theo một số giả định kỹ thuật khá lớn về quy trình học tập, trên tập huấn luyện và không gian đầu vào, nhưng với rất ít giả định về DNN (đặc biệt là các CNN được bảo hiểm đầy đủ), sau đó với xác suất ít nhất là , chúng tôi có1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
Ở đâu:
- GE là lỗi tổng quát hóa, được định nghĩa là sự khác biệt giữa tổn thất dự kiến (tổn thất trung bình của phân loại đã học trên tất cả các điểm kiểm tra có thể) và tổn thất theo kinh nghiệm (chỉ là lỗi tập huấn ol 'tốt)
- Ny là số lớp
- m là kích thước của tập huấn luyện
- Nγ là số bao phủ của dữ liệu, một đại lượng liên quan đến cấu trúc của không gian đầu vào và sự phân tách tối thiểu giữa các điểm của các lớp khác nhau trong tập huấn luyện. Tài liệu tham khảo:
J. Sokolic, R. Giryes, G. Sapiro và M. Coleues. Lỗi tổng quát hóa của phân loại bất biến . Trong AISTATS, 2017