Khi tôi đọc về việc sử dụng StandardScaler
, hầu hết các khuyến nghị đều nói rằng bạn nên sử dụng StandardScaler
trước khi chia dữ liệu thành train / test, nhưng khi tôi kiểm tra một số mã được đăng trực tuyến (sử dụng sklearn) thì có hai cách sử dụng chính.
1- Sử dụng StandardScaler
trên tất cả các dữ liệu. Ví dụ
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_fit = sc.fit(X)
X_std = X_fit.transform(X)
Hoặc là
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit(X)
X = sc.transform(X)
Hoặc đơn giản
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_std = sc.fit_transform(X)
2- Sử dụng StandardScaler
trên dữ liệu tách.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform (X_test)
Tôi muốn chuẩn hóa dữ liệu của mình, nhưng tôi bối rối không biết phương pháp nào là tốt nhất!