Tại sao không chính quy hóa giải quyết cơn đói dữ liệu Deep Neural Nets?


37

Một vấn đề tôi thường thấy được đưa ra trong bối cảnh Mạng thần kinh nói chung và Mạng lưới thần kinh sâu nói riêng, đó là chúng "đói dữ liệu" - đó là chúng không hoạt động tốt trừ khi chúng ta có một bộ dữ liệu lớn với đó để đào tạo mạng.

Sự hiểu biết của tôi là điều này là do thực tế là các NN, đặc biệt là các NN sâu, có một số lượng lớn các mức độ tự do. Vì vậy, với tư cách là một mô hình, NNet có số lượng tham số rất lớn và nếu số lượng tham số của mô hình lớn so với số lượng điểm dữ liệu đào tạo, thì có xu hướng tăng quá mức phù hợp.

Nhưng tại sao vấn đề này không được giải quyết bằng chính quy? Theo tôi biết, NNets có thể sử dụng chính quy hóa L1 và L2 và cũng có các phương thức chính quy hóa riêng như bỏ học có thể làm giảm số lượng tham số trong mạng.

Chúng ta có thể chọn các phương thức chính quy hóa để chúng thực thi phân tích cú pháp và giới hạn kích thước của mạng không?


Để làm rõ suy nghĩ của tôi: Giả sử chúng tôi đang sử dụng Deep NNet lớn để cố gắng mô hình hóa dữ liệu của mình, nhưng bộ dữ liệu nhỏ và thực sự có thể được mô hình hóa bằng mô hình tuyến tính. Vậy thì tại sao các trọng số mạng không hội tụ theo cách mà một nơron mô phỏng hồi quy tuyến tính và tất cả các trọng số khác hội tụ thành các số không? Tại sao không thường xuyên giúp đỡ với điều này?


7
"Vậy thì tại sao các trọng số mạng không hội tụ theo cách mà một nơron mô phỏng hồi quy tuyến tính và tất cả các trọng số khác hội tụ thành các số không? Tại sao không chính quy hóa giúp điều này?" Tôi thực sự nghĩ rằng điều này sẽ tạo ra một bài báo thực sự thú vị: xây dựng mạng lưới và vấn đề đó và sau đó đánh giá những gì xảy ra.
Sycorax nói Phục hồi lại

Vâng, bạn có vấn đề giảm dần độ dốc sau này trong các lớp sâu hơn của mạng ngay cả khi bạn thường xuyên. Đây là lý do tại sao mọi người sử dụng chuẩn hóa hàng loạt để làm hiệu quả những gì bạn mô tả. Các cách tiếp cận khác đã giải thích cho điều này (như LSTM) và có những điều có thể giúp giải quyết nạn đói như bỏ học.
Benjamin Gruenbaum


như @cliffab trả lời dưới đây, chính quy hóa không phải là điều bạn cần để cải thiện hiệu suất. nói một cách đơn giản, một loạt các hình ảnh con mèo xoay không giống như một hình ảnh con mèo với sự đều đặn.
seanv507

1
Tôi không ngạc nhiên chút nào. Với loại chuỗi thời gian mà tôi xử lý trong công việc, tôi vẫn chưa tìm được phương pháp đánh bại các phương pháp chuỗi thời gian skool cũ, nhưng tôi tiếp tục cố gắng :)
Aksakal

Câu trả lời:


43

Cách đơn giản để giải thích là việc chính quy hóa giúp không phù hợp với nhiễu, nó không làm được gì nhiều trong việc xác định hình dạng của tín hiệu. Nếu bạn nghĩ về việc học sâu như một hàm xấp xỉ hàm khổng lồ, thì bạn nhận ra rằng nó cần rất nhiều dữ liệu để xác định hình dạng của tín hiệu phức tạp.

Nếu không có nhiễu thì độ phức tạp tăng dần của NN sẽ tạo ra xấp xỉ tốt hơn. Sẽ không có bất kỳ hình phạt nào đối với quy mô của NN, lớn hơn sẽ tốt hơn trong mọi trường hợp. Hãy xem xét một xấp xỉ Taylor, nhiều thuật ngữ luôn luôn tốt hơn cho hàm không đa thức (bỏ qua các vấn đề chính xác về số).

Điều này bị phá vỡ khi có tiếng ồn, bởi vì bạn bắt đầu phù hợp với tiếng ồn. Vì vậy, ở đây có sự chính quy để trợ giúp: nó có thể giảm sự phù hợp với tiếng ồn, do đó cho phép chúng tôi xây dựng NN lớn hơn để phù hợp với các vấn đề phi tuyến.

Các cuộc thảo luận sau đây không cần thiết cho câu trả lời của tôi, nhưng tôi đã thêm một phần để trả lời một số ý kiến ​​và thúc đẩy cơ thể chính của câu trả lời ở trên. Về cơ bản, phần còn lại của câu trả lời của tôi giống như lửa Pháp đi kèm với một bữa ăn burger, bạn có thể bỏ qua nó.

(Ir) Trường hợp liên quan: Hồi quy đa thức

Chúng ta hãy xem một ví dụ đồ chơi của hồi quy đa thức. Nó cũng là một xấp xỉ khá tốt cho nhiều chức năng. Chúng ta sẽ xem xét hàm trong vùng . Như bạn có thể thấy từ loạt Taylor của mình bên dưới, việc mở rộng đơn hàng thứ 7 đã khá phù hợp, vì vậy chúng ta có thể hy vọng rằng một đa thức của đơn hàng 7+ cũng phải phù hợp rất tốt:x ( - 3 , 3 )sin(x)x(3,3)

nhập mô tả hình ảnh ở đây

Tiếp theo, chúng tôi sẽ điều chỉnh các đa thức với thứ tự cao hơn dần dần thành một tập dữ liệu rất nhỏ với 7 quan sát:

nhập mô tả hình ảnh ở đây

Chúng ta có thể quan sát những gì chúng ta đã được nói về đa thức bởi nhiều người biết: chúng không ổn định và bắt đầu dao động dữ dội với sự gia tăng theo thứ tự đa thức.

Tuy nhiên, vấn đề không phải là đa thức. Vấn đề là tiếng ồn. Khi chúng ta điều chỉnh đa thức cho dữ liệu nhiễu, một phần của sự phù hợp là nhiễu, không phải tín hiệu. Đây là các đa thức chính xác tương tự phù hợp với cùng một tập dữ liệu nhưng đã loại bỏ hoàn toàn nhiễu. Sự phù hợp là tuyệt vời!

Lưu ý một sự phù hợp hoàn hảo về mặt trực quan cho đơn hàng 6. Điều này không có gì đáng ngạc nhiên vì 7 quan sát là tất cả những gì chúng ta cần để xác định duy nhất đa thức bậc 6, và chúng ta đã thấy từ biểu đồ xấp xỉ Taylor ở trên rằng lệnh 6 đã là một xấp xỉ rất tốt với trong phạm vi dữ liệu của chúng tôi.sin(x)

nhập mô tả hình ảnh ở đây

Cũng lưu ý rằng đa thức bậc cao không phù hợp cũng như bậc 6, vì không có đủ các quan sát để định nghĩa chúng. Vì vậy, hãy nhìn vào những gì xảy ra với 100 quan sát. Trên biểu đồ bên dưới, bạn thấy cách tập dữ liệu lớn hơn cho phép chúng tôi điều chỉnh các đa thức bậc cao hơn, do đó hoàn thành sự phù hợp tốt hơn!

nhập mô tả hình ảnh ở đây

Tuyệt vời, nhưng vấn đề là chúng ta thường xử lý dữ liệu ồn ào. Nhìn vào những gì xảy ra nếu bạn phù hợp với 100 quan sát dữ liệu rất ồn ào, xem biểu đồ dưới đây. Chúng ta trở lại hình vuông thứ nhất: đa thức bậc cao tạo ra sự dao động khủng khiếp. Vì vậy, việc tăng tập dữ liệu không giúp được gì nhiều trong việc tăng độ phức tạp của mô hình để giải thích rõ hơn về dữ liệu. Đây là, một lần nữa, bởi vì mô hình phức tạp phù hợp tốt hơn không chỉ với hình dạng của tín hiệu, mà cả hình dạng của nhiễu.

nhập mô tả hình ảnh ở đây

Cuối cùng, chúng ta hãy thử một số chính quy khập khiễng về vấn đề này. Biểu đồ dưới đây cho thấy chính quy hóa (với các hình phạt khác nhau) được áp dụng để đặt hàng hồi quy đa thức 9. So sánh điều này với thứ tự (sức mạnh) 9 phù hợp đa thức ở trên: ở mức độ chính quy phù hợp, có thể điều chỉnh các đa thức bậc cao hơn cho dữ liệu nhiễu.

nhập mô tả hình ảnh ở đây

Chỉ trong trường hợp không rõ ràng: Tôi không đề xuất sử dụng hồi quy đa thức theo cách này. Đa thức là tốt cho phù hợp với địa phương, vì vậy một đa thức khôn ngoan có thể là một lựa chọn tốt. Để phù hợp với toàn bộ miền với chúng thường là một ý tưởng tồi, bởi vì chúng nhạy cảm với tiếng ồn, thực sự, vì nó nên rõ ràng từ các lô ở trên. Cho dù tiếng ồn là số hoặc từ một số nguồn khác không quan trọng trong bối cảnh này. tiếng ồn là tiếng ồn và đa thức sẽ phản ứng với nó một cách say mê.


8
Và khi tập dữ liệu của bạn nhỏ, rất khó phân biệt giữa nhiễu và không nhiễu.
Alex R.

3
thực sự chính quy hóa cho phép có NN lớn hơn mà không cần quá nhiều
Aksakal

6
@Alex - tại sao nó sẽ mặc định cho một mô hình đơn giản hơn? Có sự thay đổi không giải thích được mà vẫn có thể phù hợp bằng cách tăng độ phức tạp! Và ... mục tiêu là giảm mức độ biến đổi không giải thích được càng nhiều càng tốt ... nếu không, NN sẽ mặc định là mô hình đơn giản nhất có thể, cụ thể là "0". Nhưng, như Aksakal đã viết, khi NN làm giảm sự biến đổi không thể giải thích được trong dữ liệu ngày càng nhiều, nó cũng phù hợp với sự biến đổi không thể giải thích được , tức là quá mức - do đó cần phải thường xuyên hóa.
jbowman

2
Một điều nữa: giả sử quy trình cơ bản mà bạn lập mô hình là ồn ào, chẳng hạn như hành vi bỏ phiếu của con người hoặc một số kết quả sức khỏe về cơ bản là khó dự đoán. Cũng nói rằng dữ liệu của bạn được xử lý với tất cả các loại lỗi đo lường và thậm chí có thể có một số sai lệch lựa chọn. Trong môi trường tín hiệu nhiễu cao như vậy, tôi không chỉ thích một mô hình đơn giản hơn với chính quy. Tôi thậm chí có thể thích ít dữ liệu hơn để cuối cùng tôi không đo được một loạt tiếng ồn bất chấp mọi nỗ lực chính quy hóa mà tôi đã thực hiện.
Cân bằng Brash

2
@BrashEquilibrium - một điểm tuyệt vời. Chúng tôi đang thực hiện một số dự báo quy mô lớn bằng cách sử dụng máy tăng cường độ dốc với gần 150 tính năng, nhiều tính năng có độ ồn cao (nhưng vẫn cải thiện chất lượng dự báo) và đã phát hiện ra rằng cung cấp cho GBM 20% dữ liệu để đào tạo về kết quả trong các dự báo tốt hơn là cho nó 50% trở lên, ngay cả với tất cả các cơ chế chính quy hóa khác được áp dụng.
Jbowman

7

Tại thời điểm này, nó không được hiểu rõ khi nào và tại sao một số phương pháp chính quy hóa thành công và thất bại. Trong thực tế, nó không hiểu gì cả tại sao học sâu hoạt động ở nơi đầu tiên.

Xem xét thực tế rằng một mạng lưới thần kinh đủ sâu có thể ghi nhớ hầu hết các dữ liệu đào tạo được xử lý tốt một cách hoàn hảo, có nhiều giải pháp sai đáng kể hơn so với bất kỳ mạng sâu cụ thể nào. Chính quy hóa, nói rộng ra, là một nỗ lực nhằm hạn chế tính biểu cảm của các mô hình cho các giải pháp "sai" này - trong đó "sai" được xác định theo phương pháp phỏng đoán mà chúng tôi cho là quan trọng đối với một miền cụ thể . Nhưng thường thì rất khó để định nghĩa heuristic sao cho bạn không mất tính biểu cảm "đúng" với nó. Một ví dụ tuyệt vời về điều này là hình phạt L2.

Rất ít phương pháp được coi là một hình thức chính quy thường được áp dụng cho tất cả các lĩnh vực ứng dụng của ML. Tầm nhìn, NLP và các vấn đề dự đoán có cấu trúc đều có sách hướng dẫn kỹ thuật chính quy hóa đã được chứng minh là có hiệu quả về mặt thực nghiệm cho các lĩnh vực cụ thể đó. Nhưng ngay cả trong các lĩnh vực đó, các kỹ thuật này chỉ có hiệu quả trong một số trường hợp nhất định. Ví dụ, chuẩn hóa hàng loạt trên các mạng dư sâu dường như làm cho việc bỏ học trở nên dư thừa, mặc dù thực tế là cả hai đã được chứng minh là độc lập cải thiện tổng quát hóa.

Trên một lưu ý riêng, tôi nghĩ rằng thuật ngữ chính quy hóa quá rộng đến nỗi gây khó khăn cho việc hiểu bất cứ điều gì về nó. Xem xét thực tế rằng các cấu trúc giới hạn không gian tham số theo cấp số nhân đối với pixel, bạn có thể coi mạng nơ ron tích chập là một hình thức chính quy trên mạng lưới thần kinh vanilla.


Tôi không chắc chắn nếu tôi đồng ý với đoạn đầu tiên của bạn.
Ander Biguri

3
Khó có thể nói về nó trong 500 ký tự, nhưng các nhà nghiên cứu hàng đầu trên thế giới cho rằng thành công của SGD không được hiểu rõ. Ví dụ: lấy Ilya S. từ OpenAI: youtube.com/watch?v=RvEwFvl-TrY&feature=youtu.be&t=339
Austin Shin

Hoàn toàn đồng ý - có lẽ là lý do tại sao dễ dàng lý luận với các xấp xỉ đa thức hơn là lưới thực tế ...
P-Gn

3

Một lớp định lý cho thấy tại sao vấn đề này là cơ bản là Định lý Không ăn trưa miễn phí . Đối với mọi vấn đề với các mẫu giới hạn trong đó một quy trình chính quy nhất định sẽ giúp, có một vấn đề khác trong đó chính quy trình đó sẽ làm mọi thứ tồi tệ hơn. Như Austin chỉ ra, chúng ta thường thấy rằng chính quy hóa L1 / L2 rất hữu ích cho nhiều vấn đề trong thế giới thực, nhưng đây chỉ là một quan sát và, vì các định lý NFL, không thể có đảm bảo chung.


3

Tôi có thể nói rằng ở mức độ cao, sự thiên vị quy nạp của DNN (mạng lưới thần kinh sâu) là mạnh mẽ nhưng hơi quá lỏng lẻo hoặc không đủ ý kiến. Điều đó có nghĩa là các DNN nắm bắt được rất nhiều số liệu thống kê bề mặt về những gì đang diễn ra, nhưng không thể đi đến cấu trúc cấp cao nhân quả / sáng tác sâu hơn. (Bạn có thể xem kết luận như một đặc điểm kỹ thuật thiên vị quy nạp của người nghèo).

Ngoài ra, cộng đồng máy học tin rằng cách tốt nhất để khái quát hóa (đưa ra những suy luận / dự đoán tốt với ít dữ liệu) là tìm chương trình ngắn nhất làm phát sinh dữ liệu. Nhưng cảm ứng / tổng hợp chương trình là khó khăn và chúng tôi không có cách nào tốt để làm điều đó một cách hiệu quả. Vì vậy, thay vào đó chúng tôi dựa vào một xấp xỉ gần đúng đó là tìm kiếm mạch và chúng tôi biết làm thế nào với việc truyền ngược. Ở đây , Ilya Sutskever đưa ra một cái nhìn tổng quan về ý tưởng đó.


Để minh họa sự khác biệt về sức mạnh khái quát của các mô hình được thể hiện dưới dạng các chương trình thực tế so với các mô hình học sâu, tôi sẽ trình bày một trong bài viết này: Mô phỏng như một công cụ hiểu biết về cảnh vật lý .

nhập mô tả hình ảnh ở đây

. và sau đó tổng hợp các kết quả để xuất ra các khoa cảm biến và nhận thức khác (3)

nhập mô tả hình ảnh ở đây

(B) Exp. 1 (Nó sẽ rơi?) Kích thích tháp. Tòa tháp với đường viền màu đỏ thực sự được cân bằng tinh tế, và hai tòa tháp kia có cùng chiều cao, nhưng tháp có màu xanh được đánh giá là ít có khả năng rơi xuống bởi người mẫu và người dân.

(C) Mô hình IPE xác suất (trục x) so với trung bình phán đoán của con người (trục y) trong Exp. 1. Xem hình S3 để biết mối tương quan với các giá trị khác của và. Mỗi điểm đại diện cho một tháp (với SEM) và ba vòng tròn màu tương ứng với ba tháp trong B.

(D) Sự thật nền tảng (phi sản xuất) so với phán đoán của con người (Exp. 1). Bởi vì nó không đại diện cho sự không chắc chắn, nó không thể đưa ra phán đoán của mọi người đối với một số kích thích của chúng tôi, chẳng hạn như tháp có viền đỏ ở B. (Lưu ý rằng những trường hợp này có thể hiếm gặp trong các cảnh tự nhiên, trong đó cấu hình có xu hướng ổn định rõ ràng hơn hoặc không ổn định và IPE sẽ được dự kiến ​​sẽ tương quan tốt hơn với sự thật nền tảng so với kích thích của chúng tôi.)

Quan điểm của tôi ở đây là sự phù hợp trong C thực sự tốt, bởi vì mô hình nắm bắt được những thành kiến ​​đúng đắn về cách con người đưa ra phán đoán vật lý. Đây là phần lớn bởi vì nó mô hình vật lý thực tế (hãy nhớ rằng nó một động cơ vật lý thực tế) và có thể đối phó với sự không chắc chắn.

Bây giờ câu hỏi rõ ràng là: bạn có thể làm điều đó với học sâu? Đây là những gì Lerer et al đã làm trong công việc này: Học trực giác vật lý của các khối tháp bằng ví dụ

Mô hình của họ: nhập mô tả hình ảnh ở đây

Mô hình của họ thực sự khá tốt trong nhiệm vụ sắp tới (dự đoán số lượng khối rơi và thậm chí hướng rơi của chúng)

nhập mô tả hình ảnh ở đây

Nhưng nó có hai nhược điểm lớn:

  • Nó cần một lượng lớn dữ liệu để đào tạo đúng cách
  • Nói chung chỉ theo những cách nông cạn: bạn có thể chuyển sang hình ảnh trông thật hơn, thêm hoặc xóa 1 hoặc 2 khối. Nhưng bất cứ điều gì ngoài điều đó, và hiệu suất đi xuống một cách thảm khốc: thêm 3 hoặc 4 khối, thay đổi nhiệm vụ dự đoán ...

Có một nghiên cứu so sánh được thực hiện bởi phòng thí nghiệm của Tenenbaum về hai phương pháp này: Đánh giá so sánh mô phỏng xác suất gần đúng và Mạng lưới thần kinh sâu như là tài khoản của sự hiểu biết về cảnh vật lý của con người .

Trích dẫn phần thảo luận:

Hiệu suất của CNN giảm khi có ít dữ liệu đào tạo. Mặc dù AlexNet (không được xử lý trước) hoạt động tốt hơn với 200.000 hình ảnh đào tạo, nhưng nó cũng bị thiếu dữ liệu nhiều hơn, trong khi AlexNet giả định có thể học tốt hơn từ một lượng nhỏ hình ảnh đào tạo. Đối với nhiệm vụ của chúng tôi, cả hai mô hình đòi hỏi khoảng 1.000 hình ảnh để hiệu suất của chúng tương đương với mô hình IPE và con người.

CNN cũng có khả năng khái quát hóa hạn chế trên các biến thể cảnh nhỏ, chẳng hạn như thay đổi số lượng khối. Ngược lại, các mô hình IPE tự nhiên khái quát hóa và nắm bắt các cách mà độ chính xác phán đoán của con người giảm theo số lượng khối trong một ngăn xếp.

Kết hợp lại với nhau, những kết quả này chỉ ra một điều cơ bản về nhận thức của con người rằng các mạng lưới thần kinh (hoặc ít nhất là CNN) hiện không nắm bắt được: sự tồn tại của một mô hình tinh thần của các quá trình nhân quả của thế giới. Các mô hình tinh thần nhân quả có thể được mô phỏng để dự đoán những gì sẽ xảy ra trong các tình huống mới lạ về chất lượng và chúng không yêu cầu dữ liệu đào tạo rộng lớn và đa dạng để khái quát rộng rãi, nhưng chúng vốn đã phải chịu một số loại lỗi nhất định (ví dụ: lan truyền sự không chắc chắn do trạng thái và tiếng ồn động lực) chỉ trong việc vận hành bằng mô phỏng.

Quay lại điểm tôi muốn thực hiện: trong khi mạng lưới thần kinh là mô hình mạnh mẽ, chúng dường như thiếu khả năng biểu diễn cấu trúc nhân quả, cấu tạo và phức tạp. Và họ bù đắp cho điều đó bằng cách yêu cầu nhiều dữ liệu đào tạo.

Và trở lại câu hỏi của bạn: Tôi sẽ mạo hiểm rằng sự thiên vị quy nạp rộng lớn và thực tế là mạng lưới thần kinh không mô hình hóa nhân quả / thành phần là lý do tại sao họ cần rất nhiều dữ liệu đào tạo. Chính quy hóa không phải là một sửa chữa lớn vì cách họ khái quát. Một cách khắc phục tốt hơn sẽ là thay đổi sự thiên vị của họ, như hiện đang được Hinton thử nghiệm với các viên nang để mô hình hóa toàn bộ / một phần hình học hoặc các mạng tương tác để mô hình hóa các mối quan hệ.


2

Trước hết, có rất nhiều phương pháp chính quy cả trong sử dụng và nghiên cứu tích cực để học sâu. Vì vậy, tiền đề của bạn không hoàn toàn chắc chắn.

Đối với các phương pháp đang sử dụng, phân rã trọng lượng là việc thực hiện trực tiếp hình phạt L2 đối với các trọng số thông qua việc giảm độ dốc. Lấy độ dốc của chỉ tiêu bình phương về trọng lượng của bạn và thêm một bước nhỏ theo hướng này cho chúng ở mỗi lần lặp. Bỏ học cũng được coi là một hình thức chính quy, trong đó áp đặt một loại cấu trúc trung bình. Điều này dường như ngụ ý một cái gì đó giống như một hình phạt L2 đối với một nhóm các mạng có các tham số được chia sẻ.

Bạn có thể có thể tăng mức độ của các kỹ thuật này hoặc các kỹ thuật khác để giải quyết các mẫu nhỏ. Nhưng lưu ý rằng chính quy hóa hàm ý áp đặt kiến ​​thức trước. Ví dụ, hình phạt L2 đối với các trọng số ngụ ý một Gaussian cho các trọng số. Tăng số lượng chính quy hóa về cơ bản nói rằng kiến ​​thức trước của bạn ngày càng chắc chắn và thiên vị kết quả của bạn đối với trước đó. Vì vậy, bạn có thể làm điều đó và nó sẽ phù hợp ít hơn nhưng đầu ra thiên vị có thể hút. Rõ ràng giải pháp là kiến ​​thức tốt hơn trước. Đối với nhận dạng hình ảnh, điều này có nghĩa là các linh mục có cấu trúc hơn nhiều về các số liệu thống kê về vấn đề của bạn. Vấn đề với hướng này là bạn đang áp đặt nhiều chuyên môn về miền và tránh phải áp đặt chuyên môn của con người là một trong những lý do bạn sử dụng học sâu.


+1 để đề cập đến sự thiên vị. Tại sao không giải thích toàn bộ điều này về sự thiên vị và phương sai? "Quá mức" không có định nghĩa toán học chính xác và ngụ ý sự phân đôi không tồn tại ("overfit" / "không quá phù hợp").
Josh

2

Để làm rõ suy nghĩ của tôi: Giả sử chúng tôi đang sử dụng Deep NNet lớn để cố gắng mô hình hóa dữ liệu của mình, nhưng bộ dữ liệu nhỏ và thực sự có thể được mô hình hóa bằng mô hình tuyến tính. Vậy thì tại sao các trọng số mạng không hội tụ theo cách mà một nơron mô phỏng hồi quy tuyến tính và tất cả các trọng số khác hội tụ thành các số không? Tại sao không thường xuyên giúp đỡ với điều này?

Mạng lưới thần kinh có thể được đào tạo như thế này. Nếu sử dụng chính quy L1 thích hợp thì phần lớn các trọng số có thể bằng 0 và điều này sẽ làm cho các mạng lưới thần kinh hoạt động giống như nối các nơ ron hồi quy tuyến tính 1 hoặc hơn và nhiều số 0 khác. Vì vậy, có - Các chính quy L1 / L2 hoặc tương tự có thể được sử dụng để hạn chế kích thước hoặc sức mạnh đại diện của mạng thần kinh.

Trên thực tế kích thước của mô hình là một loại chính quy - nếu bạn làm cho mô hình lớn, điều đó có nghĩa là bạn tiêm kiến ​​thức trước về vấn đề, nghĩa là, các vấn đề rất phức tạp nên nó đòi hỏi mô hình có sức mạnh đại diện cao. Nếu bạn làm cho mô hình nhỏ, điều đó có nghĩa là bạn truyền tải kiến ​​thức rằng vấn đề rất đơn giản nên mô hình không cần nhiều năng lực.

Và điều này có nghĩa là chính quy hóa L2 sẽ không làm cho các mạng trở nên "thưa thớt" như bạn mô tả, bởi vì chính quy hóa L2 tiêm vào kiến ​​thức trước đó rằng sự đóng góp của mỗi nơ-ron (trọng lượng) nên nhỏ nhưng khác không. Vì vậy, mạng sẽ sử dụng từng nơ-ron thay vì chỉ sử dụng một bộ nơ-ron nhỏ.


1

L2L1

Một điểm quan trọng ở đây là chính quy hóa không phải lúc nào cũng hữu ích. Thay vào đó, thường xuyên hướng tới những gì có lẽ đúng là rất hữu ích, nhưng thường xuyên đi sai hướng rõ ràng là xấu.

L2

Nhưng bây giờ giả sử dữ liệu của chúng tôi là hình ảnh của những con mèo được nuôi dưỡng trong một mạng lưới thần kinh sâu sắc. Trên thực tế, nếu "tai nhọn" rất hữu ích trong việc xác định mèo, có lẽ chúng tôi muốn giảm hình phạt để mang lại sức mạnh dự đoán hơn này. Nhưng chúng tôi không biết nơi nào trong mạng này sẽ được đại diện! Chúng tôi vẫn có thể đưa ra các hình phạt để một số phần nhỏ của hệ thống không thống trị toàn bộ mạng, nhưng ngoài điều đó, thật khó để giới thiệu chính quy hóa một cách có ý nghĩa.

Tóm lại, rất khó kết hợp thông tin trước vào một hệ thống mà chúng tôi không hiểu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.