Ông nói "sự phức tạp hiệu quả của mạng". Ông thực sự đề cập đến kích thước của trọng lượng của mạng. Điều này có thể được hiểu theo nguyên tắc chiều dài mô tả tối thiểu . Nhưng trước khi tôi hiểu điều đó, trực giác là trọng lượng càng lớn, loại chức năng mạng của bạn càng phù hợp, và do đó mức độ tự do (và độ phức tạp hiệu quả) càng cao.
Trong chương đó, ông đang nói về chính quy hóa, đó là một kỹ thuật giảm thiểu rủi ro quá mức một cách hiệu quả, bằng cách yêu cầu các trọng số càng nhỏ càng tốt. Nói chung,
p ( D | w ) = Πnp ( tn| xn, W ) = Πnđiểm kinh nghiệm( β2[ tn- y( xn, w ) ]2) / ZD( β)
wZD( β)
p ( w ) = điểm kinh nghiệm( - α | | w | |22) / ZW( α )
tranh luậntối đawp ( w | D )
p(w|D)=p(D|w)p(w)
Zw
argminw∑nβ2[tn−y(xn,w)]2+α2∑iw2i
Tổng quát hơn, bạn có ước tính MAP tương đương như sau,
wMAP=argminw−log2P(D|w)−log2(w)
Phía bên phải của biểu thức có thể được hiểu là số bit cần thiết để mô tả trình phân loại của bạn. Thuật ngữ đầu tiên biểu thị số bit cần thiết để mã các lỗi mà mạng của bạn thực hiện trên dữ liệu huấn luyện. Thứ hai đại diện cho số lượng bit cần thiết để mã hóa các trọng số.
Do đó, ước tính MAP tương đương với việc chọn đại diện nhỏ gọn nhất có thể. Nói cách khác, bạn tìm tập hợp các trọng số chiếm dữ liệu huấn luyện một cách trung thực nhất có thể có thể được biểu thị với số lượng bit ít nhất.
Lưu ý rằng đây là một dạng khác của vấn đề sai lệch / sai lệch: trọng số càng lớn, thuật ngữ đầu tiên càng thấp, bởi vì mạng có thể phù hợp với dữ liệu đào tạo tốt hơn (quá mức). Nhưng đồng thời độ phức tạp của trọng lượng càng cao. Các trọng số càng nhỏ, độ phức tạp của mạng càng nhỏ, nhưng thuật ngữ lỗi (độ lệch) càng cao. Số bit cần thiết để mã lỗi của mạng càng cao.
Hy vọng điều này cung cấp cho bạn một ý tưởng đủ tốt về những gì anh ấy đang đề cập đến.
PS thêm một đối số dài hơn cho các cuộc thảo luận đang diễn ra Có lẽ tôi hiểu lầm bạn. Hãy để tôi cố gắng giải thích bản thân lần cuối.
Ưu tiên về trọng số có nghĩa là đại diện cho giả định chúng tôi đưa ra về chức năng bạn muốn phù hợp. Càng lớn trước (nghĩa là các trọng số) thì Gaussian càng rộng, tức là càng nhiều cấu hình có thể xem là phù hợp với mạng.
Chúng ta hãy xem xét trường hợp hồi quy (như trong bài báo tôi đã đề cập). Lỗi tổng quát hóa thấp có nghĩa là mạng có thể ánh xạ các mẫu không nhìn thấy rất gần với các giá trị thực tế. Nếu bạn đang lắp một đường thẳng, thì một đa thức bậc nhất (độ phức tạp thấp). Bây giờ, bạn cũng có thể điều chỉnh dữ liệu với đa thức bậc cao hơn (hãy để hệ số bậc cao khác với 0). Độ phức tạp của mạng cao hơn vì bạn cho phép dao động, cho một đường cong phức tạp hơn. Tuy nhiên, nếu các hệ số tương ứng với các điều khoản bậc cao hơn đủ thấp, mạng có thể xấp xỉ đường thẳng rất tốt, do đó dẫn đến tổng quát hóa tốt.
Vì vậy, toàn bộ quan điểm của MDL là làm cho trọng lượng của bạn càng nhỏ càng tốt, miễn là tôi có thể giảm thiểu lỗi tổng quát hóa.
Cuối cùng, trích dẫn bạn: "Tôi vẫn thấy phiền khi lập luận rằng khi mô hình bắt đầu phù hợp quá mức, khả năng mô hình hóa các chức năng khác của nó sẽ tăng lên. Tôi nghĩ điều đó hoàn toàn ngược lại bởi vì một mô hình mặc trang phục, không thể khái quát hóa để áp dụng cho mới thông tin.". Vâng, nó có thể mô hình hóa các chức năng KHÁC, phức tạp hơn, nhưng nó sẽ thất bại trong việc mô hình hóa chức năng trong tay đúng cách. Trong hình 5.12 trong cuốn sách, lỗi đầu tiên sẽ giảm, vì kích thước của trọng lượng tăng (giảm độ lệch). Lên đến một điểm nhất định khi nó bắt đầu tăng trở lại (giảm mức độ khái quát hóa, quá phù hợp).