Tại sao học sâu được thổi phồng mặc dù kích thước VC xấu?


86

Công thức tính toán độ cao của vnikikik Chervonenkis (VC) cho các mạng thần kinh nằm trong khoảng từ đến , với trong trường hợp xấu nhất, trong đó là số cạnh và là số lượng nút. Số lượng mẫu đào tạo cần thiết để đảm bảo khái quát hóa mạnh mẽ là tuyến tính với kích thước VC.O(E)O(E2)O(E2V2)EV

Điều này có nghĩa là đối với một mạng có hàng tỷ cạnh, như trong trường hợp các mô hình học sâu thành công, tập dữ liệu đào tạo cần hàng tỷ mẫu đào tạo trong trường hợp tốt nhất, trong trường hợp xấu nhất trong trường hợp xấu nhất. Các bộ đào tạo lớn nhất hiện có khoảng một trăm tỷ mẫu. Vì không có đủ dữ liệu đào tạo, nên các mô hình học sâu không chắc là khái quát. Thay vào đó, họ đang làm quá mức dữ liệu đào tạo. Điều này có nghĩa là các mô hình sẽ không hoạt động tốt trên dữ liệu không giống với dữ liệu đào tạo, đây là một đặc tính không mong muốn cho máy học.

Do không có khả năng học sâu để khái quát hóa, theo phân tích chiều VC, tại sao kết quả học sâu lại bị thổi phồng như vậy? Chỉ có độ chính xác cao trên một số tập dữ liệu không có nghĩa là nhiều. Có điều gì đặc biệt về kiến ​​trúc học sâu giúp giảm đáng kể kích thước VC không?

Nếu bạn không nghĩ rằng phân tích kích thước VC có liên quan, vui lòng cung cấp bằng chứng / giải thích rằng học sâu là khái quát hóa và không quá mức. Tức là nó có thu hồi tốt và chính xác, hay chỉ thu hồi tốt? Thu hồi 100% là chuyện nhỏ để đạt được, cũng như độ chính xác 100%. Có được cả hai gần 100% là rất khó.

Một ví dụ ngược lại, đây là bằng chứng cho thấy học tập sâu là quá mức. Một mô hình overfit rất dễ bị đánh lừa vì nó đã kết hợp nhiễu xác định / ngẫu nhiên. Xem hình ảnh sau đây cho một ví dụ về quá mức.

Ví dụ về việc trang bị, trang bị và quá mức.

Ngoài ra, hãy xem các câu trả lời được xếp hạng thấp hơn cho câu hỏi này để hiểu các vấn đề với mô hình overfit mặc dù độ chính xác tốt trên dữ liệu thử nghiệm.

Một số người đã trả lời rằng chính quy hóa giải quyết vấn đề về kích thước VC lớn. Xem câu hỏi này để thảo luận thêm.


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
DW

7
Tôi không nghĩ câu hỏi tại sao một cái gì đó "thổi phồng" là tốt. Câu trả lời là "bởi vì mọi người". Mọi người quan tâm đến mọi thứ vì rất nhiều lý do, bao gồm cả tiếp thị.
luk32

Học sâu hoạt động trong thực tế. Nó có thể là quá mức. Nó có thể hoàn toàn bất công. Nó có thể là học hỏi bí mật của vũ trụ từ một vị thần eldritch. Nhưng sự cường điệu đến từ các nhà quảng cáo, những người đột nhiên có thể viết 30 dòng trên mã và dạy một máy ảnh quét chữ ký và khớp chúng với những người được lưu trữ để xác thực các giao dịch ngân hàng. Hoặc gắn thẻ những người chưa biết trong ảnh. V.v. Có lẽ bạn đã nghe câu "không phải là xúc phạm nếu nó đúng"? Vâng, nó không cường điệu nếu nó hoạt động. Có rất nhiều vấn đề nó không hoạt động và sự cường điệu phổ biến quá mức. Nhưng nó hoạt động trong ứng dụng thực tế.
Stella Biderman

@StellaBerman dễ dàng sử dụng các công cụ xung quanh các kỹ thuật học máy tiêu chuẩn là tốt và tất cả. Nhưng mối quan tâm dường như liên quan nhiều hơn đến khả năng học tập được cho là của các DNN có lẽ là đối thủ với khả năng của con người, dường như vượt trội so với phân tích của VC về mô hình. Kích thước VC cao như vậy ngụ ý các mô hình sẽ không khái quát hóa, và thay vào đó ghi nhớ các bộ dữ liệu, làm cho chúng rất dễ vỡ. Tất cả các bài báo mẫu đối nghịch xuất hiện để chứng minh điểm này.
yters

@gerrit Tôi không chắc rằng chỉnh sửa là hữu ích. Tôi đặt cược theo cách nhiều người biết kích thước VC là gì hơn là biết nó đại diện cho cái gì.
David Richerby

Câu trả lời:


75

"Nếu bản đồ và địa hình không đồng ý, hãy tin vào địa hình."

Nó không thực sự hiểu tại sao học tập sâu cũng hoạt động tốt như vậy, nhưng chắc chắn các khái niệm cũ từ lý thuyết học tập như kích thước VC dường như không hữu ích lắm.

Vấn đề đang được tranh luận sôi nổi, xem ví dụ:

Liên quan đến vấn đề về các ví dụ đối nghịch , vấn đề đã được phát hiện trong:

Nó được phát triển thêm trong:

Có rất nhiều công việc tiếp theo.


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
DW

Khi bạn nói "Có rất nhiều công việc tiếp theo", bạn có đang đề cập đến bài báo năm 2014 vừa qua không? Hai bài báo đầu tiên bạn đề cập là khá gần đây. Bạn có thể cập nhật với các giấy tờ bạn đang đề cập đến?.
VF1

2
Mạnh +1 cho "Nếu bản đồ và địa hình không đồng ý, hãy tin vào địa hình". Các mô hình hoạt động rất tốt trong thực tế bất kể toán học nói họ nên làm gì. Từ một POV khoa học, điều này xảy ra mọi lúc và nếu bất cứ điều gì làm cho vấn đề trở nên thú vị hơn. Không ai đọc tác phẩm của Razborov và Rudich về Bằng chứng tự nhiên và "tốt, tôi đoán P vs NP không phải là một câu hỏi thú vị." Họ đã đi và tìm ra rằng có thể sử dụng hình học đại số để thực hiện lý thuyết phức tạp. Từ quan điểm của khoa học, các vấn đề vượt qua sự hiểu biết của chúng ta là tốt hơn , không tồi tệ hơn.
Stella Biderman

65

"Do không thể khái quát hóa Deep Learning, theo phân tích chiều của VC [...]"

Không, đó không phải là những gì phân tích chiều VC nói. Phân tích chiều VC cho một số điều kiện đủ theo đó khái quát hóa được đảm bảo. Nhưng điều ngược lại không nhất thiết phải như vậy. Ngay cả khi bạn không đáp ứng các điều kiện đó, phương thức ML vẫn có thể khái quát.

Nói một cách khác: học sâu hoạt động tốt hơn phân tích chiều VC sẽ khiến bạn mong đợi (tốt hơn so với "dự đoán" phân tích của VC). Đó là một thiếu sót của phân tích chiều VC, không phải là thiếu sót của việc học sâu. Nó không ngụ ý rằng học sâu là thiếu sót. Thay vào đó, điều đó có nghĩa là chúng ta không biết tại sao việc học sâu hoạt động - và phân tích VC không thể cung cấp bất kỳ hiểu biết hữu ích nào.

Kích thước VC cao không ngụ ý rằng học sâu có thể bị đánh lừa. Kích thước VC cao không đảm bảo bất cứ điều gì về việc liệu nó có thể bị đánh lừa trong các tình huống thực tế hay không. Kích thước VC cung cấp một trường hợp đơn hướng, trường hợp xấu nhất: nếu bạn gặp những điều kiện này, thì điều tốt sẽ xảy ra, nhưng nếu bạn không đáp ứng những điều kiện này, chúng tôi không biết điều gì sẽ xảy ra (dù sao thì điều tốt vẫn sẽ xảy ra, nếu bản chất hành xử tốt hơn trường hợp xấu nhất có thể xảy ra; phân tích VC không hứa hẹn rằng những điều tốt đẹp không thể / sẽ không xảy ra).

Có thể là kích thước VC của không gian mô hình là lớn (nó bao gồm các mẫu rất phức tạp càng tốt), nhưng bản chất được giải thích bằng các mẫu đơn giản và thuật toán ML tìm hiểu mẫu đơn giản có trong tự nhiên (ví dụ: do chính quy hóa) - - trong trường hợp này, kích thước VC sẽ cao nhưng mô hình sẽ khái quát hóa (đối với mẫu cụ thể có trong tự nhiên).

Điều đó nói rằng ... ngày càng có nhiều bằng chứng cho thấy việc học sâu thể bị đánh lừa bởi các ví dụ bất lợi. Nhưng hãy cẩn thận về chuỗi lý luận của bạn. Các kết luận bạn đang rút ra không tuân theo các tiền đề mà bạn bắt đầu.


6
Kích thước VC cao không có nghĩa là khó khái quát hóa hơn (trong một số ý nghĩa, ít nhất là khi xử lý các phân phối tùy ý). Các lỗi tổng quát thấp hơn bị ràng buộc chính xác có nghĩa là cho số lượng mẫu nhỏ so với chiều vc, có tồn tại một bản phân phối như vậy mà so với nó bất kỳ thuật toán sẽ gặp lỗi tổng quát hóa cao (với xác suất cao). Ω(dn)
Ariel

5
-1 cho "Chiều VC cao không đảm bảo bất cứ điều gì cả." Điều này không đúng: kích thước VC cao hàm ý giới hạn mẫu phức tạp thấp hơn cho việc học PAC. Một câu trả lời tốt nên giải quyết các phân phối trường hợp xấu nhất so với "thực tế".
Sasho Nikolov

1
@SashoNikolov, điểm tốt - cảm ơn bạn! Đã chỉnh sửa.
DW

Bài đăng này là trong đánh giá chất lượng thấp. Với nội dung, độ dài, phiếu bầu và chất lượng, điều này thật vô lý, chỉ ra điều này ở đây, nhưng nó có thể cần meta, bởi vì có gì đó thực sự sai.
Ác

23

Dân công nghiệp không quan tâm đến chiều kích của VC, côn đồ ...

Một lưu ý nghiêm trọng hơn, mặc dù mô hình PAC là một cách thanh lịch để suy nghĩ về việc học (ít nhất là theo ý kiến ​​của tôi), và đủ phức tạp để đưa ra các khái niệm và câu hỏi thú vị (như kích thước của VC và mối liên hệ của nó với độ phức tạp của mẫu) , nó có rất ít liên quan đến các tình huống thực tế trong cuộc sống.

Hãy nhớ rằng trong mô hình PAC, bạn được yêu cầu xử lý các phân phối tùy ý, điều này có nghĩa là thuật toán của bạn sẽ xử lý các phân phối đối nghịch. Khi cố gắng tìm hiểu một số hiện tượng trong thế giới thực, không ai cho bạn "dữ liệu bất lợi" để làm xáo trộn kết quả của bạn, do đó, việc yêu cầu một lớp khái niệm là PAC có thể học được có thể quá mạnh. Đôi khi, bạn có thể ràng buộc lỗi tổng quát hóa một cách độc lập với kích thước VC, cho một lớp phân phối cụ thể. Đây là trường hợp giới hạn lề, được xây dựng độc lập với kích thước VC. Chúng có thể hứa hẹn lỗi tổng quát hóa thấp nếu bạn có thể đảm bảo tỷ lệ thực nghiệm cao (tất nhiên, điều này không thể xảy ra đối với tất cả các bản phân phối, ví dụ: lấy hai điểm gần trên mặt phẳng với các thẻ đối diện và tập trung phân phối vào chúng).

Vì vậy, đặt mô hình PAC và kích thước VC sang một bên, tôi nghĩ rằng sự cường điệu xuất phát từ thực tế là chúng dường như hoạt động và thành công trong các nhiệm vụ mà trước đây không thể thực hiện được (một trong những thành tựu mới nhất xuất hiện trong đầu là AlphaGo). Tôi biết rất ít về mạng lưới thần kinh, vì vậy tôi hy vọng ai đó có nhiều kinh nghiệm sẽ tham gia, nhưng theo hiểu biết của tôi thì vẫn chưa có sự đảm bảo tốt nào (chắc chắn không giống như trong mô hình PAC). Có lẽ theo các giả định đúng, người ta có thể biện minh chính thức cho sự thành công của mạng lưới thần kinh (tôi cho rằng có những công việc xoay quanh việc điều trị chính thức mạng lưới thần kinh và "học sâu", vì vậy tôi hy vọng những người có kiến ​​thức về chủ đề này có thể liên kết một số bài báo) .


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
DW

15

Do không có khả năng Deep Learning để khái quát hóa,

Tôi không biết bạn lấy nó từ đâu. Theo kinh nghiệm, khái quát hóa được coi là điểm số (ví dụ như độ chính xác) trên dữ liệu không nhìn thấy.

Câu trả lời tại sao CNN được sử dụng rất đơn giản: CNN hoạt động tốt hơn nhiều so với bất kỳ thứ gì khác . Xem ImageNet 2012 chẳng hạn:

  • CNNs: 15.315% (đó là một ví dụ ban đầu. CNNs hiện đã tốt hơn rất nhiều. Ở mức khoảng 4% lỗi top 5)
  • Không phải CNN tốt nhất: 26.172% lỗi Top-5 ( nguồn - theo các kỹ thuật kiến ​​thức của tôi không sử dụng CNN đã không nhận được dưới 25% lỗi top 5)

Tạo một bộ phân loại tốt hơn và mọi người sẽ chuyển sang đó.

CẬP NHẬT: Tôi sẽ trao một câu trả lời cho bất kỳ ai cung cấp bằng chứng được công bố rằng máy học nói chung dễ bị lừa, giống như bằng chứng này cho Deep Learning.

Đây không phải là trường hợp. Bạn có thể tạo một trình phân loại cực kỳ đơn giản trên một tập dữ liệu đơn giản. Sẽ không thể đánh lừa được nó (thậm chí nó không quan trọng "dễ dàng" nghĩa là gì), nhưng nó cũng không thú vị.


3
Một lỗi thấp không ngụ ý khái quát. Đó là một điều kiện cần, nhưng không đủ.
thay đổi

3
@yters Hãy xác định khái quát hóa sau đó.
Martin Thoma

5
@yters, nhận xét này khiến tôi nghĩ rằng bạn chưa đọc nhiều về Machine Learning. Martin cho biết độ chính xác trên dữ liệu chưa thấy . Bạn đang nói về độ chính xác trên dữ liệu đào tạo. Về cơ bản bạn đúng về khái quát hóa là gì, nhưng xin vui lòng nhận ra rằng mọi người khác ở đây cũng hiểu điều đó .
Ken Williams

1
@yters Tôi khá chắc chắn Ken (và nhiều người trên trang này, bao gồm cả bản thân tôi) biết điều này. Tuy nhiên, nếu bộ kiểm tra của bạn không đại diện cho tập dữ liệu của bạn, bạn không thể đưa ra bất kỳ tuyên bố nào về khái quát hóa. Mặc dù đáng để ghi nhớ điều này, tôi không thấy điều này giúp bạn như thế nào trong câu hỏi này. Bạn chỉ cần giả định / đảm bảo rằng bộ kiểm tra của bạn đại diện cho dữ liệu của bạn tại thời điểm sản xuất. Trong thực tế, thực sự dễ dàng để chỉ ra rằng bạn có thể làm cho bất kỳ phân loại nào tùy ý xấu nếu các mẫu đào tạo không đại diện cho phân phối.
Martin Thoma

2
Đó là hiển nhiên. Bạn không thể mong đợi một mô hình sẽ khái quát tốt nếu nó được đào tạo về xác thực dữ liệu sai. Bạn cần dữ liệu tốt hơn, không phải là một mô hình tốt hơn.
Emre

9

Câu trả lời một từ là "chính quy". Công thức kích thước VC ngây thơ không thực sự được áp dụng ở đây bởi vì chính quy hóa đòi hỏi các trọng số không phải là chung. Chỉ có một tỷ lệ nhỏ (vô hạn?) Kết hợp cân nặng có mức giảm chấp nhận được sau khi chính quy. Kết quả thực sự là nhiều thứ tự có độ lớn ít hơn, do đó việc khái quát hóa có thể xảy ra với các bộ huấn luyện chúng ta có. Các kết quả thực tế cho thấy rằng quá mức thường không xảy ra.


2
Tôi đã thấy tuyên bố lặp đi lặp lại rằng kết quả thực tế cho thấy học tập sâu rộng. Chính xác những kết quả cho thấy khái quát là gì? Tất cả những gì tôi thấy cho đến nay là DL đạt được tỷ lệ lỗi thấp trên các bộ dữ liệu cụ thể, điều đó không có nghĩa là DL tổng quát hóa.
thay đổi

3
nó cho thấy kết quả tốt ("tốt" = tốt hơn các phương pháp ML khác) trên dữ liệu mà nó không được đào tạo . Tôi không chắc chắn làm thế nào khác bạn muốn thực tế đo lường tổng quát hóa.
lvilni

3

Chúng tôi giải quyết bài viết: Hiểu sâu về học tập đòi hỏi phải suy nghĩ lại về khái quát hóa. trong

Suy nghĩ lại về khái quát hóa đòi hỏi phải xem xét lại các ý tưởng cũ: phương pháp cơ học thống kê và hành vi học tập phức tạp Charles H. Martin và Michael W. Mahoney

Xem: https://arxiv.org/pdf/1710.09553.pdf

Về cơ bản, chúng tôi lập luận rằng giới hạn của VC quá lỏng lẻo bởi vì cách tiếp cận cơ bản và cách giới hạn thống kê được thực hiện là không thực tế.

Một cách tiếp cận tốt hơn nằm trong Cơ học thống kê, xem xét một lớp các hàm phụ thuộc dữ liệu, lấy giới hạn Nhiệt động lực học (không chỉ giới hạn số lượng lớn)

Hơn nữa, chúng tôi cũng chỉ ra làm thế nào sự gián đoạn tự nhiên trong nhu cầu sâu sắc dẫn đến sự chuyển pha trong đường cong học tập, mà chúng tôi tin rằng đang được quan sát trong bài báo của Google (ở trên)

Về các giới hạn, xem phần 4.2 của bài báo của chúng tôi

"Rõ ràng, nếu chúng ta sửa kích thước mẫu m và để [kích thước của lớp chức năng] N →, [hoặc vise ngược lại, sửa N, hãy để m →] chúng ta không nên mong đợi một kết quả không tầm thường, vì [ N] đang trở nên lớn hơn nhưng kích thước mẫu là cố định. Do đó, [trong Cơ học thống kê] người ta thường xem xét trường hợp m, N → ∞ sao cho α = m / N là hằng số cố định. "

Đó là, rất hiếm khi chúng ta chỉ cần thêm nhiều dữ liệu (m) vào một mạng lưới sâu. Chúng tôi luôn tăng kích thước của mạng (N) vì chúng tôi biết rằng chúng tôi có thể nắm bắt các tính năng / thông tin chi tiết hơn từ dữ liệu. Thay vào đó, chúng tôi thực hiện những gì chúng tôi lập luận trong bài báo - lấy giới hạn kích thước lớn, với tỷ lệ m / N cố định (trái ngược với việc sửa lỗi m và để N tăng).

Những kết quả này được biết đến trong Cơ chế thống kê học tập. Phân tích phức tạp hơn, nhưng kết quả dẫn đến một cấu trúc phong phú hơn nhiều giải thích nhiều hiện tượng trong học tập sâu.

Ngoài ra, và đặc biệt, người ta biết rằng nhiều giới hạn từ thống kê trở nên tầm thường hoặc không áp dụng cho các phân phối xác suất không trơn tru hoặc khi các biến có giá trị rời rạc. Với các mạng thần kinh, hành vi không tầm thường phát sinh do sự không liên tục (trong các chức năng kích hoạt), dẫn đến sự chuyển pha (phát sinh trong giới hạn nhiệt động).

Bài báo chúng tôi viết cố gắng giải thích những ý tưởng nổi bật cho khán giả khoa học máy tính.

Bản thân Vapnik nhận ra rằng lý thuyết của ông không thực sự có thể áp dụng cho các mạng thần kinh ... từ năm 1994

"Việc mở rộng [kích thước VC] cho các mạng nhiều lớp gặp phải [nhiều] khó khăn .. các thuật toán học tập hiện tại không thể được xem là giảm thiểu rủi ro theo kinh nghiệm đối với toàn bộ tập hợp các chức năng mà mạng có thể thực hiện được ... [vì] có khả năng ... việc tìm kiếm sẽ bị giới hạn trong một tập hợp con của các [các] chức năng này ... Công suất của bộ này có thể thấp hơn nhiều so với công suất của toàn bộ ... [và] có thể thay đổi theo số lượng quan sát. Điều này có thể yêu cầu một lý thuyết xem xét khái niệm năng lực không cố định với tập hợp con các hàm 'hoạt động' "
Vapnik, Levin và LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

Mặc dù không dễ điều trị bằng lý thuyết VC, nhưng đây không phải là vấn đề đối với stat mech..và những gì họ mô tả trông rất giống với Lý thuyết phong cảnh năng lượng của việc gấp protein. (đó sẽ là chủ đề của một bài báo trong tương lai)


Điều này nghe có vẻ thú vị, nhưng tôi không chắc là tôi làm theo lập luận của bạn. Bạn có thể giải thích câu đầu tiên, nghĩa là cách tiếp cận cơ bản / giới hạn thống kê là không thực tế, theo cách khép kín không đòi hỏi phải hiểu cơ học thống kê? Những giả định nào mà giới hạn của VC đưa ra, và tại sao chúng không thực tế? Có lẽ bạn có thể chỉnh sửa câu trả lời của bạn để bao gồm thông tin đó?
DW

Tôi đã thêm một tài liệu tham khảo cho tác phẩm gốc của Vapnik và LeCun (1994) để thảo luận về vấn đề này.
Charles Martin

Và thêm một số làm rõ.
Charles Martin

1

Không ai có thể chỉ ra trong các câu trả lời ở trên, rằng công thức kích thước VC được trích dẫn chỉ dành cho mạng thần kinh 1 lớp. Tôi đoán là kích thước VC thực sự tăng theo cấp số nhân khi số lớp L tăng lên. Lý luận của tôi dựa trên việc xem xét các mạng thần kinh sâu trong đó chức năng kích hoạt được thay thế bằng các mạng đa thức. Sau đó, mức độ của các đa thức tổng hợp tăng theo cấp số nhân khi các lớp tăng lên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.