Có 2 lý do khiến chúng ta phải bình thường hóa các tính năng đầu vào trước khi đưa chúng vào mạng thần kinh:
Lý do 1 : Nếu một Feature
trong Dataset
phạm vi lớn so với các quy mô khác thì tính năng quy mô lớn này sẽ chiếm ưu thế và do đó, Dự đoán của Mạng thần kinh sẽ không chính xác.
Ví dụ : Trong trường hợp Dữ liệu nhân viên, nếu chúng tôi xem xét Tuổi và Mức lương, Tuổi sẽ là Số có hai chữ số trong khi Mức lương có thể là 7 hoặc 8 chữ số (1 triệu, v.v.). Trong trường hợp đó, Mức lương sẽ chi phối Dự đoán về Mạng lưới thần kinh. Nhưng nếu chúng ta Bình thường hóa các Tính năng đó, Giá trị của cả hai Tính năng sẽ nằm trong Phạm vi từ (0 đến 1).
Lý do 2 : Tuyên truyền trước về Mạng nơ-ron liên quan đến Sản phẩm chấm có trọng lượng với các tính năng đầu vào. Vì vậy, nếu Giá trị rất cao (đối với Dữ liệu hình ảnh và Không hình ảnh), Tính toán đầu ra mất rất nhiều thời gian tính toán cũng như bộ nhớ. Tương tự là trường hợp trong Back Propagation. Do đó, Model hội tụ chậm, nếu Đầu vào không được chuẩn hóa.
Ví dụ : Nếu chúng tôi thực hiện Phân loại hình ảnh, Kích thước của hình ảnh sẽ rất lớn, vì Giá trị của mỗi Pixel nằm trong khoảng từ 0 đến 255. Chuẩn hóa trong trường hợp này là rất quan trọng.
Đề cập dưới đây là những trường hợp mà Chuẩn hóa là rất quan trọng:
- Phương tiện
- K-Gần-Hàng xóm
- Phân tích thành phần chính (PCA)
- Xuống dốc