Theo tài liệu của đối tượng StandardScaler trong scikit-learn:
Ví dụ, nhiều phần tử được sử dụng trong hàm mục tiêu của thuật toán học tập (chẳng hạn như hạt nhân RBF của Support Vector Machines hoặc bộ điều chỉnh L1 và L2 của các mô hình tuyến tính) cho rằng tất cả các tính năng đều tập trung quanh 0 và có phương sai theo cùng một thứ tự. Nếu một tính năng có phương sai lớn hơn các bậc khác, nó có thể chi phối hàm mục tiêu và làm cho trình ước tính không thể học từ các tính năng khác một cách chính xác như mong đợi.
Tôi nên mở rộng các tính năng của mình trước khi phân loại. Có cách nào dễ dàng để chỉ ra lý do tại sao tôi nên làm điều này? Tài liệu tham khảo cho các bài báo khoa học sẽ còn tốt hơn. Tôi đã tìm thấy một nhưng có lẽ có nhiều người khác.