Câu chuyện: Bà
tôi đi bộ, nhưng không leo lên. Một số bà làm. Một bà đã nổi tiếng vì leo Kilimanjaro .
Núi lửa không hoạt động đó là lớn. Nó là 16.000 feet trên cơ sở của nó. (Đừng ghét các đơn vị đế quốc của tôi.) Đôi khi, nó cũng có sông băng trên đỉnh.
Nếu bạn leo lên một năm mà không có sông băng, và bạn lên đỉnh, nó có phải là đỉnh giống như khi có sông băng không? Độ cao là khác nhau. Con đường bạn phải đi là khác nhau. Điều gì nếu bạn lên đỉnh khi độ dày của sông băng lớn hơn? Điều đó làm cho nó nhiều hơn một thành tựu? Khoảng 35.000 người cố gắng leo lên nó mỗi năm, nhưng chỉ có khoảng 16.000 người thành công.
Ứng dụng:
Vì vậy, tôi sẽ giải thích việc kiểm soát các trọng số (còn gọi là giảm thiểu độ phức tạp của mô hình) cho bà của tôi, như sau:
Bà ơi, bộ não của bạn là một nhà tư tưởng tuyệt vời cho dù bạn có biết hay không. Nếu tôi hỏi bạn có bao nhiêu trong số 16.000 người nghĩ rằng họ đạt đến đỉnh thực sự đã làm như vậy, bạn sẽ nói "tất cả trong số họ".
Nếu tôi đặt cảm biến trong giày của tất cả 30.000 người leo núi và đo chiều cao so với mực nước biển, thì một số người trong số họ đã không cao như những người khác và có thể không đủ điều kiện. Khi tôi làm điều đó tôi sẽ đi đến một mô hình không đổi - tôi đang nói nếu chiều cao không bằng một số phần trăm của chiều cao tối đa đo được thì nó không phải là đỉnh. Một số người nhảy lên trên đỉnh. Một số người chỉ cần băng qua đường và ngồi xuống.
Tôi có thể thêm vĩ độ và kinh độ vào cảm biến, và phù hợp với một số phương trình bậc cao hơn và có thể tôi có thể phù hợp hơn, và có nhiều người hơn, thậm chí có thể chính xác 45% trong tổng số người thử nó.
Vì vậy, hãy nói rằng năm tới là một năm "sông băng lớn" hoặc một năm "không có sông băng" bởi vì một số núi lửa thực sự biến đổi albedo của trái đất. Nếu tôi lấy mô hình phức tạp và chính xác của mình từ năm nay và áp dụng nó cho những người leo lên vào năm tới thì mô hình sẽ có kết quả kỳ lạ. Có lẽ mọi người sẽ "vượt qua" hoặc thậm chí là quá cao để vượt qua. Có lẽ không ai sẽ vượt qua, và nó sẽ nghĩ rằng không ai thực sự hoàn thành việc leo núi. Đặc biệt là khi mô hình phức tạp, nó sẽ có xu hướng không khái quát tốt. Nó có thể chính xác phù hợp với dữ liệu "đào tạo" của năm nay, nhưng khi dữ liệu mới xuất hiện, nó hoạt động kém.
Thảo luận:
Khi bạn giới hạn độ phức tạp của mô hình, thì bạn thường có thể có sự khái quát tốt hơn mà không cần quá khớp. Sử dụng các mô hình đơn giản hơn, các mô hình được xây dựng nhiều hơn để phù hợp với biến thể trong thế giới thực, có xu hướng cho kết quả tốt hơn, tất cả những thứ khác đều bằng nhau.
Bây giờ bạn có một cấu trúc liên kết mạng cố định, vì vậy bạn đang nói "số lượng tham số của tôi là cố định" - Tôi không thể có sự thay đổi về độ phức tạp của mô hình. Vô lý. Đo entropy trong các quả cân. Khi entropy cao hơn, điều đó có nghĩa là một số hệ số mang nhiều "thông tin" hơn đáng kể so với các hệ số khác. Nếu bạn có entropy rất thấp, điều đó có nghĩa là nhìn chung các hệ số mang mức độ "thông tin" tương tự. Tin học không nhất thiết là một điều tốt. Trong một nền dân chủ, bạn muốn tất cả mọi người đều bình đẳng, và những thứ như George Orwell "bình đẳng hơn những người khác" là thước đo cho những thất bại của hệ thống. Nếu bạn không có một lý do tuyệt vời cho nó, bạn muốn trọng lượng khá giống nhau.
Trên một lưu ý cá nhân: thay vì sử dụng voodoo hoặc heuristic, tôi thích những thứ như "tiêu chí thông tin" vì chúng cho phép tôi có được kết quả đáng tin cậy và nhất quán. AIC , AICc và BIC là một số điểm khởi đầu phổ biến và hữu ích. Lặp lại phân tích để xác định tính ổn định của giải pháp hoặc phạm vi kết quả của tiêu chí thông tin là cách tiếp cận phổ biến. Người ta có thể nhìn vào việc đặt trần trên entropy ở trọng lượng.