XIN LƯU Ý: Tôi không cố gắng cải thiện ví dụ sau. Tôi biết bạn có thể có được độ chính xác hơn 99%. Toàn bộ mã là trong câu hỏi. Khi tôi thử mã đơn giản này, tôi nhận được độ chính xác khoảng 95%, nếu tôi chỉ cần thay đổi chức năng kích hoạt từ sigmoid sang relu, nó sẽ giảm xuống dưới 50%. Có một lý do lý thuyết tại sao điều này xảy ra?
Tôi đã tìm thấy ví dụ sau đây trên mạng:
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers.core import Dense, Activation
from keras.utils import np_utils
(X_train, Y_train), (X_test, Y_test) = mnist.load_data()
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
Y_train = np_utils.to_categorical(Y_train, classes)
Y_test = np_utils.to_categorical(Y_test, classes)
batch_size = 100
epochs = 15
model = Sequential()
model.add(Dense(100, input_dim=784))
model.add(Activation('sigmoid'))
model.add(Dense(10))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='sgd')
model.fit(X_train, Y_train, batch_size=batch_size, epochs=epochs, verbose=1)
score = model.evaluate(X_test, Y_test, verbose=1)
print('Test accuracy:', score[1])
Điều này cho độ chính xác khoảng 95%, nhưng nếu tôi thay đổi sigmoid bằng ReLU, tôi nhận được độ chính xác dưới 50%. Tại sao vậy?