Tải một mô hình Keras được đào tạo và tiếp tục đào tạo

Question 1

Tôi đã tự hỏi liệu có thể lưu mô hình Keras đã được đào tạo một phần và tiếp tục đào tạo sau khi tải lại mô hình hay không.

Lý do cho điều này là tôi sẽ có nhiều dữ liệu đào tạo hơn trong tương lai và tôi không muốn đào tạo lại toàn bộ mô hình một lần nữa.

Các chức năng mà tôi đang sử dụng là:

#Partly train model
model.fit(first_training, first_classes, batch_size=32, nb_epoch=20)

#Save partly trained model
model.save('partly_trained.h5')

#Load partly trained model
from keras.models import load_model
model = load_model('partly_trained.h5')

#Continue training
model.fit(second_training, second_classes, batch_size=32, nb_epoch=20)

Chỉnh sửa 1: đã thêm ví dụ hoạt động đầy đủ

Với tập dữ liệu đầu tiên sau 10 kỷ, mất mát của kỷ cuối sẽ là 0,0748 và độ chính xác 0,9863.

Sau khi lưu, xóa và tải lại mô hình, độ mất mát và độ chính xác của mô hình được đào tạo trên tập dữ liệu thứ hai sẽ tương ứng là 0,1711 và 0,9504.

Điều này gây ra bởi dữ liệu đào tạo mới hay do một mô hình được đào tạo lại hoàn toàn?

"""
Model by: http://machinelearningmastery.com/
"""
# load (downloaded if needed) the MNIST dataset
import numpy
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import np_utils
from keras.models import load_model
numpy.random.seed(7)

def baseline_model():
    model = Sequential()
    model.add(Dense(num_pixels, input_dim=num_pixels, init='normal', activation='relu'))
    model.add(Dense(num_classes, init='normal', activation='softmax'))
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    return model

if __name__ == '__main__':
    # load data
    (X_train, y_train), (X_test, y_test) = mnist.load_data()

    # flatten 28*28 images to a 784 vector for each image
    num_pixels = X_train.shape[1] * X_train.shape[2]
    X_train = X_train.reshape(X_train.shape[0], num_pixels).astype('float32')
    X_test = X_test.reshape(X_test.shape[0], num_pixels).astype('float32')
    # normalize inputs from 0-255 to 0-1
    X_train = X_train / 255
    X_test = X_test / 255
    # one hot encode outputs
    y_train = np_utils.to_categorical(y_train)
    y_test = np_utils.to_categorical(y_test)
    num_classes = y_test.shape[1]

    # build the model
    model = baseline_model()

    #Partly train model
    dataset1_x = X_train[:3000]
    dataset1_y = y_train[:3000]
    model.fit(dataset1_x, dataset1_y, nb_epoch=10, batch_size=200, verbose=2)

    # Final evaluation of the model
    scores = model.evaluate(X_test, y_test, verbose=0)
    print("Baseline Error: %.2f%%" % (100-scores[1]*100))

    #Save partly trained model
    model.save('partly_trained.h5')
    del model

    #Reload model
    model = load_model('partly_trained.h5')

    #Continue training
    dataset2_x = X_train[3000:]
    dataset2_y = y_train[3000:]
    model.fit(dataset2_x, dataset2_y, nb_epoch=10, batch_size=200, verbose=2)
    scores = model.evaluate(X_test, y_test, verbose=0)
    print("Baseline Error: %.2f%%" % (100-scores[1]*100))

Question 2

Trên thực tế - model.savelưu tất cả thông tin cần thiết để bắt đầu lại đào tạo trong trường hợp của bạn. Điều duy nhất có thể bị hỏng khi tải lại mô hình là trạng thái trình tối ưu hóa của bạn. Để kiểm tra điều đó - hãy thử savetải lại mô hình và đào tạo nó trên dữ liệu đào tạo.

Question 3

Vấn đề có thể là bạn sử dụng một trình tối ưu hóa khác - hoặc các đối số khác nhau cho trình tối ưu hóa của bạn. Tôi vừa gặp vấn đề tương tự với một mô hình tùy chỉnh trước, sử dụng

reduce_lr = ReduceLROnPlateau(monitor='loss', factor=lr_reduction_factor,
                              patience=patience, min_lr=min_lr, verbose=1)

đối với mô hình đào tạo trước, theo đó tốc độ học ban đầu bắt đầu ở 0,0003 và trong quá trình đào tạo trước, nó được giảm xuống tỷ lệ min_learning, là 0,000003

Tôi vừa sao chép dòng đó sang tập lệnh sử dụng mô hình được đào tạo trước và có độ chính xác thực sự kém. Cho đến khi tôi nhận thấy rằng tốc độ học tập cuối cùng của mô hình đào tạo trước là tốc độ học tập tối thiểu, tức là 0,000003. Và nếu tôi bắt đầu với tốc độ học tập đó, tôi sẽ nhận được chính xác cùng độ chính xác để bắt đầu với kết quả đầu ra của mô hình được đào tạo trước - điều này có ý nghĩa, khi bắt đầu với tốc độ học tập lớn hơn 100 lần so với tốc độ học tập cuối cùng được sử dụng trong mô hình sẽ dẫn đến một lượng lớn GD quá mức và do đó độ chính xác giảm đi rất nhiều.

Question 4

Hầu hết các câu trả lời trên đều bao hàm những điểm quan trọng. Nếu bạn đang sử dụng Tensorflow gần đây ( TF2.1hoặc cao hơn), thì ví dụ sau sẽ giúp bạn. Phần mô hình của mã là từ trang web Tensorflow.

import tensorflow as tf
from tensorflow import keras
mnist = tf.keras.datasets.mnist

(x_train, y_train),(x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

def create_model():
  model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(512, activation=tf.nn.relu),  
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation=tf.nn.softmax)
    ])

  model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',metrics=['accuracy'])
  return model

# Create a basic model instance
model=create_model()
model.fit(x_train, y_train, epochs = 10, validation_data = (x_test,y_test),verbose=1)

Vui lòng lưu mô hình ở định dạng * .tf. Theo kinh nghiệm của tôi, nếu bạn đã xác định bất kỳ custom_loss nào, thì định dạng * .h5 sẽ không lưu trạng thái trình tối ưu hóa và do đó sẽ không phục vụ mục đích của bạn nếu bạn muốn đào tạo lại mô hình từ nơi chúng tôi đã rời đi.

# saving the model in tensorflow format
model.save('./MyModel_tf',save_format='tf')


# loading the saved model
loaded_model = tf.keras.models.load_model('./MyModel_tf')

# retraining the model
loaded_model.fit(x_train, y_train, epochs = 10, validation_data = (x_test,y_test),verbose=1)

Cách tiếp cận này sẽ bắt đầu lại quá trình đào tạo tại nơi chúng tôi đã rời khỏi trước khi lưu mô hình. Như đã đề cập bởi những người khác, nếu bạn muốn tiết kiệm trọng lượng của mô hình tốt nhất hoặc bạn muốn tiết kiệm trọng lượng của mô hình mọi thời đại bạn cần phải sử dụng keras callbacks function (ModelCheckpoint) với các tùy chọn như save_weights_only=True, save_freq='epoch', và save_best_only.

Để biết thêm chi tiết, vui lòng kiểm tra tại đây và một ví dụ khác ở đây .

Question 5

Lưu ý rằng Keras đôi khi gặp sự cố với các mô hình đã tải, như ở đây . Điều này có thể giải thích các trường hợp mà bạn không bắt đầu từ cùng một độ chính xác được đào tạo.

Question 6

Tất cả những điều trên đều hữu ích, bạn phải tiếp tục từ cùng một tỷ lệ học tập () như LR khi mô hình và trọng số được lưu. Đặt nó trực tiếp trên trình tối ưu hóa.

Lưu ý rằng cải tiến từ đó không được đảm bảo, vì mô hình có thể đã đạt mức tối thiểu cục bộ, có thể là toàn cầu. Không có lý do gì để tiếp tục một mô hình để tìm kiếm một mức tối thiểu cục bộ khác, trừ khi bạn có ý định tăng tỷ lệ học tập theo cách có kiểm soát và đưa mô hình vào mức tối thiểu có thể tốt hơn không xa.

Question 7

Bạn cũng có thể đánh trúng Concept Drift, hãy xem Bạn có nên đào tạo lại một mô hình khi có các quan sát mới . Ngoài ra còn có khái niệm về sự lãng quên thảm hại mà một loạt các bài báo học thuật thảo luận. Đây là một cuộc điều tra theo kinh nghiệm của MNIST về sự lãng quên thảm khốc