Các lựa chọn thay thế cho kích thước VC để đo độ phức tạp của mạng lưới thần kinh là gì?


16

Tôi đã bắt gặp một số cách cơ bản để đo lường sự phức tạp của mạng lưới thần kinh:

Có những lựa chọn thay thế khác?

Nó được ưa thích:

  • Nếu số liệu độ phức tạp có thể được sử dụng để đo các mạng thần kinh từ các mô hình khác nhau (để đo backprop, mạng lưới thần kinh động lực học, tương quan tầng, v.v.) trên cùng một thang đo. Chẳng hạn, kích thước VC có thể được sử dụng cho các loại khác nhau trên các mạng (hoặc thậm chí những thứ khác ngoài mạng thần kinh) trong khi số lượng tế bào thần kinh chỉ hữu ích giữa các mô hình rất cụ thể trong đó chức năng kích hoạt, tín hiệu (tổng cơ bản so với gai) và các loại khác thuộc tính của mạng là như nhau.
  • Nếu nó có sự tương ứng tốt với các biện pháp phức tạp tiêu chuẩn của các chức năng mà mạng có thể học được
  • Nếu có thể dễ dàng tính toán số liệu trên các mạng cụ thể (mặc dù điều này cuối cùng không phải là bắt buộc.)

Ghi chú

Câu hỏi này dựa trên một câu hỏi tổng quát hơn về CogSci.SE.


3
Không phải sự phức tạp cũng phụ thuộc vào thuật toán học tập sao? Kích thước VC thường được áp dụng cho các phương thức có chức năng mất lồi. Nếu bạn có một tổn thất không lồi, bạn có thể gặp tình huống mô hình của bạn có thể tách một số điểm nhưng bạn học thuật toán sẽ không bao giờ tìm thấy giải pháp này. Do đó, tôi cảm thấy khá khó khăn để có giới hạn sử dụng cấu trúc của mạng. Tôi đồng ý với @tdc rằng lỗi tổng quát hóa là cách để đi. Bài viết của Vapnik về lý thuyết học thống kê có thể là một nơi tốt để bắt đầu tìm hiểu về điều đó.
Andreas Mueller

Câu trả lời:


8

Bạn có thể muốn xem qua bài báo "(Không phải) Bounding the True Error của John Langford & Rich Caruana (NIPS, 2001)

Các trạng thái trừu tượng:

Chúng tôi trình bày một cách tiếp cận mới để ràng buộc tỷ lệ lỗi thực sự của một bộ phân loại có giá trị liên tục dựa trên giới hạn PAC-Bayes. Phương thức đầu tiên xây dựng phân phối trên các phân loại bằng cách xác định mức độ nhạy của từng tham số trong mô hình đối với nhiễu. Tỷ lệ lỗi thực sự của trình phân loại ngẫu nhiên được tìm thấy với phân tích độ nhạy có thể được giới hạn chặt chẽ bằng cách sử dụng ràng buộc PAC-Bayes. Trong bài báo này, chúng tôi trình bày phương pháp trên các mạng nơ ron nhân tạo với kết quả cải thiện cường độ 2 3 so với giới hạn mạng thần kinh xác định tốt nhất.

Chúng cho thấy rằng bạn có thể áp dụng giới hạn kiểu PAC-Bayes cho các mạng thần kinh ngẫu nhiên. Tuy nhiên, phân tích chỉ áp dụng cho các mạng nơ ron chuyển tiếp thức ăn 2 lớp với chức năng chuyển sigmoidal. Trong trường hợp này, thuật ngữ phức tạp chỉ phụ thuộc vào số lượng nút và phương sai của các trọng số. Chúng cho thấy rằng đối với thiết lập này, ràng buộc dự đoán hiệu quả khi đào tạo quá mức sẽ xảy ra. Thật không may, nó không thực sự đạt được bất kỳ thuộc tính "ưa thích" nào của bạn!


+1 trông thật tuyệt - cảm ơn bạn, tôi sẽ xem qua. Nhưng tôi đồng ý rằng nó không phù hợp với bất kỳ thuộc tính ưa thích nào và thoạt đầu dường như không thực sự đo lường mức độ phức tạp của mạng nhiều như hiệu suất của nó ... nhưng tôi đoán chúng không thể tách rời.
Artem Kaznatcheev

Những gì nó đang nhìn là Lỗi Tổng quát hóa . Các giới hạn được tạo ra thường có một thuật ngữ dựa trên lỗi đào tạo và thời hạn phạt dựa trên mức độ phức tạp của mô hình. Tất cả những gì bạn quan tâm là thuật ngữ phức tạp, nhưng nó sẽ là một thành phần trong gần như mọi ràng buộc. Video này giải thích nó tốt hơn tôi có thể!
tdc

nghĩ rằng hướng này là không chính xác. lỗi khác nhiều so với độ phức tạp của mạng. mặc dù lý thuyết hiện tại có thể làm mờ cả hai. một ví dụ đơn giản là quá mức trong đó lỗi thấp nhưng độ phức tạp cao. Ngoài ra, lỗi có thể hành xử theo cách phản trực giác phức tạp wrt. chẳng hạn như thiên vị. có vẻ như một mạng nhỏ có thể đánh giá thấp lỗi. etcetera

@vzn nhưng lỗi tổng quát hóa là lỗi trên dữ liệu trong tương lai - tức là nếu bạn có lỗi đào tạo thấp và độ phức tạp cao, lỗi của bạn sẽ bị lỏng lẻo.
tdc

3

Ngoài ra, bạn cũng có thể có hứng thú với công việc kích thước chất béo được thực hiện bởi Giáo sư Peter Bartlett. Dưới đây là phần giới thiệu về phân tích độ phức tạp của mạng nơ-ron, trong bài viết của IEEE năm 1998: Độ phức tạp mẫu của phân loại mẫu với mạng nơ-ron: Kích thước của các trọng số quan trọng hơn kích thước của mạng (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.